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献 给 我 的 姐姐 囊 塔 
在 我 写作 本 书 的 过 程 中 ， 她 没 能 战胜 病魔 


所 有 科学 中 最 重大 的 目标 就 是 ， 从 最 少数 量 的 假设 和 公理 出 友 ， 用 
逻辑 演绎 推理 的 方法 解释 最 大 量 的 经 验 事实 。 


一 一 阿尔 伯 特 。 爱 因 斯 坦 


通过 拓展 我 们 不 假 思 索 就 能 运算 的 能 力 ， 文 明 就 会 大 为 进步 。 


阿尔 弗 雷 德 @ 诺 思 . 怀特 海 


推荐 序 


作为 一 位 机 器 学 习 领 域 研习 10 年 以 上 的 专业 技术 人 员 ， 我 当初 入 行 
的 时 候 没有 想到 ， 短 短 的 10 年 间 ， 这 项 技术 会 如 此 快速 地 改变 众多 行 
业 ， 并 影响 全 球 数 十 亿 用 户 生活 的 方方面面 。 在 今天 ， 当 你 用 今日 头条 
浏览 新 闻 资 讯 的 时 候 ， 当 你 用 网 易 云 音 乐 查看 推荐 歌 单 的 时 候 ， 当 你 在 
百度 搜索 信息 的 时 候 ， 当 你 在 互联 网 金融 平台 申请 借款 的 时 候 ， 甚 至 在 
你 调戏 Siri 和 小 冰 的 时 候 ， 其 实 都 是 其 背后 的 机 器 学 习 算法 在 云端 服务 
器 中 为 你 默默 服务 。 但 对 于 这 样 一 种 重要 技术 ， 市 面 上 -一直 缺少 一 本 适 
合 普通 读者 的 入 门 科普 读物 ， 而 众多 的 专业 书籍 要 求 读者 具备 一 定 的 高 
等 数学 和 计算 机 基础 算法 知识 ， 并 不 适合 科普 的 需要 。 直 到 中 信 出 版 社 
的 朋友 将 这 本 书 的 翻译 稿 推荐 给 我 时 ， 我 欣 昧 地 发 现 ， 这 正 是 想 了 解 一 
点 机 器 学 习 的 普通 读者 所 需要 的 啊 。 本 书 的 作者 多 明 戈 斯 是 华盛顿 大 学 
的 终身 教授 ， 也 是 一 位 在 机 器 学 习 领 域 具有 20 年 研究 经 历 的 资深 科学 
家 。 多 明 戈 斯 一 直 致力 于 融合 各 种 机 器 学 习 算法 的 优势 ， 提 出 一 种 可 以 
解决 所 有 应 用 问题 的 通用 算法 ， 即 终极 算法 。 在 这 本 书 里 ， 作 者 详细 地 
阐述 了 他 的 思路 。 其 实 我 个 人 在 阅读 本 书 的 过 程 中 ， 始 终 对 “终极 算 
法 ”的 提 法 充满 怀疑 。 在 我 看 来 ， 机 器 学 习作 为 人 工 智能 领域 的 主流 技 
术 ， 在 现实 社会 中 一 直 以 技术 工具 的 面目 为 人 所 知 。 不 同 的 技术 流派 和 
相应 算法 往往 可 以 很 好 地 解决 一 些 问题 ， 却 对 另 一 些 问题 一 筹 莫 展 。 所 
谓 的 终极 算法 真 的 存在 吗 ? 如果 存在 ， 有 价值 吗 ? 


可 以 拿 内 燃 机 举 个 例子 ， 就 我 这 个 外 行 来 说 ， 也 知道 存在 活塞 式 发 
动机 、 涡 喷发 动机 、 涡 轴 发 动机 、 涡 扇 发 动机 、 潢 浆 发 动机 、 冲 压 发 动 
机 等 不 同 种 类 的 内 燃 机 。 不 同 的 内 燃 机 特性 角 寞 ， 适 用 的 工 况 也 不 尽 相 
同 。 小 到 家 用 小 汽车 ， 大 到 导弹 驱逐 舰 ， 人 类 制造 的 各 种 机 动 设备 ， 都 
可 以 根据 自己 的 效率 需求 、 动 力 需求 、 寿 命 需求 ， 帮 至 司 动 速度 等 多 种 


需求 维度 选择 发 动机 种 类 。 如 果 有 人 非 要 搞 个 终极 内 燃 机 ， 并 企图 用 这 
种 内 燃 机 丛 代 现存 的 各 类 内 燃 机 ， 为 所 有 大 大 小 小 、 需 求 不 同 的 机 动 设 
备 提供 统一 动力 ， 估 计 大 概率 是 要 失败 的 。 这 种 通用 的 终极 内 燃 机 如 果 
能 搞 出 来 ， 在 大 部 分 领域 肯定 苋 争 不 过 各 领域 的 专用 内 燃 机 ， 或 者 成 本 
太 高 ， 或 者 能 效 太 低 。 


市 着 这 种 疑问 ， 我 通 篇 读 下 来 之 后 才 发 现 作者 的 另 一 层 用 意 。 诚 如 
作者 所 说 ， 很 多 普通 人 可 能 没有 意识 到 目 己 的 生活 中 机 器 学 习 算 法 的 影 
啊 己 经 无 处 不 在 ， 机 器 学 习 已 经 在 逐渐 接管 现实 世界 。 大 众 对 这 样 一 种 
技术 的 认 知 程度 和 该 技术 的 重要 性 相 比 显得 远 远 不 够 ， 在 不 远 的 未 来 ， 
了 解 机 器 学 习 并 有 能 力 利用 机 器 学 习 改 进 目 己 工 作 的 人 在 职业 发 展 上 会 
具备 巨大 的 优势 。“ 不 要 和 人 工 智能 对 抗 ， 要 让 人 工 智能 为 你 服务 ”是 作 
者 诚挚 的 忠告 。 而 要 利用 好 机 器 学 习 这 个 工具 ， 并 不 一 定 需要 读 一 个 计 
算 机 博士 学 位 ， 但 有 必要 了 解 一 些 基 本 的 概念 ， 了 解 各 种 技术 的 优 缺 点 
和 能 力 边界 。 正 如 一 位 称职 的 驾驶 员 不 必 了 解 具体 怎么 制造 汽车 发 动 
机 ， 但 是 对 发 动机 的 工作 原理 和 种 类 还 是 需要 略 知 一 二 的 。 因 此 ， 相 比 
一 板 一 眼 地 介绍 机 器 学 习 的 典型 算法 ， 作 者 设计 了 一 个 更 引人入胜 的 套 
路 : 先 抛 出 一 个 “是 否 存在 一 种 终极 算法 ”的 问题 ， 然 后 市 着 读者 一 章 一 
草地 回顾 机 器 学 习 发 展 史 上 的 重要 流派 和 代表 算法 。 每 回顾 一 派 ， 就 喜 
励 读者 思考 终极 算法 应 该 如 何 借鉴 这 类 算法 的 优点 。 好 奇 的 普通 读者 带 
者 疑问 读 完 本 书后 ， 不 论 其 是 人 否 相信 终极 算法 的 存在 ， 至 少 对 各 类 算法 
都 会 有 一 定 的 印象 。 以 讨论 终极 算法 为 名 ， 行 科普 之 实 ， 到 这 一 步 ， 我 
党 得 作者 的 目的 已 经 达到 一 半 了 。 


另外 ， 在 文 末 作 者 还 提 到 ， 无 论 终极 算法 是 否 存在 ， 他 和 希望 这 个 大 
胆 的 问题 能 够 激发 部 分 读者 的 好 奇 ， 甚 至 被 这 个 问题 吸引 成 为 机 器 学 习 
的 专业 研究 人 员 。 确 实 ， 每 一 种 学 科 都 需要 至 局 的 理想 驱动 辐 前 ， 残 如 
同 物理 的 大 一 统 理论 ， 当 无 数 杰 出 的 天 才 为 一 个 终极 问题 孜孜 以 求 时 ， 
就 算 这 个 问题 本 身 在 这 些 人 的 有 生 之 年 可 能 没有 答案 ， 但 是 这 个 学 科 一 
定 会 因为 这 些 伟大 的 探索 历程 取得 辉煌 的 进步 。 我 想 ， 这 也 许 是 作者 因 


为 对 机 器 学 习 的 热爱 夹带 的 另 一 个 私 货 吧 。 


作为 今日 类 条 的 一 位 算法 架构 师 ， 我 倒是 希望 头条 用 户 都 能 陷入 作 
者 的 “ 团 套 ”， 币 者 好 奇 心 ， 好 好 读 读 这 本 书 。 如 果 大 多 数 用 户 都 能 了 解 
一 些 机 占 学 习 的 基础 知识 ， 应 该 束 能 够 更 好 地 和 推荐 算法 互动 ， 不 断 把 
算法 调教 得 更 好 ， 更 符合 自己 真正 的 兴趣 ， 而 不 会 因为 算法 一 开始 推荐 
的 内 容 不 好 就 放弃 这 个 产品 。 城 如 作者 所 说 ， 也 许 在 未 来 ， 对 应 人 关 的 
心理 学 ， 也 会 出 现 机 器 心理 学 ， 了 解 一 点 机 器 人 的 心理 ， 会 让 你 和 机 器 
的 互动 更 有 效率 ， 也 会 让 机 器 更 快 地 成 为 你 忠实 、 不 知 疲倦 的 助手 。 


草 欢 欢 


今日 头条 首席 算法 构架 师 


序 


你 也 许 不 知道 ， 但 机 器 学 习 就 在 你 身边 。 当 你 把 查询 信息 输入 搜索 
引擎 时 ， 它 确定 该 回 你 显示 哪些 搜索 结果 (包括 显示 哪些 广告 〉》。 当 你 
打开 邮箱 时 ， 大 部 分 垃圾 邮件 你 无 法 看 到 ， 因 为 计算 机 已 经 把 这 些 垃圾 
邮件 过 滤 了 。 登 录 亚 马 逊 网 站 购买 一 本 书 ， 或 登录 网 飞 CNetflix) 公司 
网 站 观看 视频 ， 机 器 学 习 系 统 会 推荐 一 些 你 可 能 喜欢 的 产品 。 脸 书 
CEFacebook) 利用 机 器 学 习 决 定 该 同 你 展示 哪些 更 新 ， 推 特 (Twitter) 
也 同样 会 决定 显示 哪些 文章 。 你 使 用 计算 机 的 任何 时 候 ， 都 有 可 能 涉及 
机 器 学 习 。 


传统 上 认为 ， 让 计算 机 完成 某 件 事情 的 唯一 方法 〈 从 把 两 个 数 相 加 
到 驾驶 飞机 ) ， 就 是 非常 详细 地 记录 茶 个 算法 并 解释 其 如 何 运 行 。 但 机 
器 学 习 算 法 就 不 一 样 : 通过 从 数据 中 推 师 ， 它 们 自己 会 弄 明 白 做 事 方 
法 。 午 握 的 数据 越 多 ， 它 们 的 工作 就 越 顺 利 。 现 在 我 们 不 用 给 计算 机 编 
程 ， 它 们 自己 给 自己 编程 。 


机 器 学 习 不 仅 存 在 于 网 络 空 间 ， 它 还 存在 于 你 每 天 的 生活 中 :从 你 
醒 来 到 入 睡 ， 每 时 每 刻 无 所 不 在 。 


早上 7 点 你 的 收音 机 闹钟 啊 起 ， 播 放 的 是 你 之 前 从 未 听 过 的 歌曲 ， 
但 你 的 确 很 喜欢 这 首 歌 。Pandora 电 台 “〈 可 免费 根据 你 的 喜好 播放 歌 
曲 ) 的 优势 在 于 ， 根 据 你 听 的 音乐 ， 电 人 台 掌 握 了 你 的 品位 ， 就 像 你 自己 
的 radio jock 账 号 一 样 。 这 些 歌曲 本 映 可 能 借助 机 器 学 习 来 播放 。 接 下 来 
你 吃 早餐 ， 阅 读 早报 。 早 报 在 几 个 小 时 前 印 好 ， 利 用 学 习 算 法 ， 印 刷 过 
星 经 过 仔细 调整 ， 以免 报 纸 出 现 折 痕 。 你 房间 的 温度 刚刚 好 ， 电 费 明 显 
少 了 很 多 ， 因 为 你 安装 了 Nest 智 能 温 控 器 。 


你 开车 去 上 班 ， 车 持续 调整 燃油 喷射 和 排 气 再 循环 ， 以 达到 最 佳 的 
油耗 。 你 利用 一 个 交通 预报 系统 (Inrix) 来 缩短 高 峰 时 段 上 下 班 的 时 
间 ， 这 当然 能 减缓 你 的 压力 。 上 班 时 ， 机 器 学 习 帮 你 元 服 信息 超载 。 你 
利用 数据 立方 体 来 汇总 大 量 数据 ， 从 每 个 角度 观察 该 立方 体 ， 获 取 最 有 
用 的 信息 。 你 要 决定 是 采用 布局 方案 A， 还 是 采用 布局 方案 B， 以 便 为 
网 站 带 来 更 多 的 业务 。 网 络 学 习 系 统 会 尝试 两 种 布局 方案 ， 并 给 予 反 
馈 。 你 得 对 潜在 供应 商 的 网 站 进行 调查 ， 但 网 站 的 语言 是 外 语 。 没 关 
系 ， 谷 歌会 自动 为 你 翻译 。E-mail 会 自动 分 类 并 归 入 相应 的 文件 夹 ， 只 
把 最 重要 的 信息 留 在 邮箱 里 ， 非 常 方便 。 文 字 处 理 软件 帮 你 查找 语法 和 
拼写 错误 。 你 为 即将 到 来 的 行程 查找 到 一 个 航班 ， 但 决定 推迟 购买 机 
票 ， 因 为 必 应 旅行 (Bing Travel〉 预 测 票 价 很 快 会 下 降 。 也 许 你 没有 意 
识 到 以 上 这 些 ， 要 不 是 机 器 学 习 帮 助 你 ， 你 可 能 要 马不停蹄 地 亲自 做 很 
多 事情 。 


你 在 休息 时 间 碍 看 目 己 的 共同 基金 ， 大 部 分 基金 利用 学 习 算法 来 选 
， 其 中 的 茶 些 基金 完全 由 学 习 系统 运作 。 午 餐 时 间 到 了 ， 你 走 在 大 街 
， 想 找 个 蝶 饭 的 地 方 ， 这 时 候 用 手机 上 的 Yelp 点 评 应 用 程序 来 帮助 
:。 你 的 手机 充满 了 学 习 算 法 ， 它 们 努力 工作 ， 改 正 拼写 错误 、 理 解 口 
头 指 令 、 减 少 传输 误差 、 识 别 条 形 码 ， 还 有 其 他 很 多 事情 。 手 机 甚至 可 
以 预测 你 接 下 来 会 做 什么 ， 然 后 依 此 给 出 建议 。 例 如 ， 当 你 吃 完 午 餐 
后 ， 它 会 小 心 豌豆 地 提示 你 ， 下 午 和 外 地 来 访 者 的 会 面 要 推迟 ， 因 为 她 
的 航班 延误 了 。 
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下 班 时 夜幕 已 降临 ， 你 走向 自己 的 车 ， 机 器 学 习 会 保证 你 的 安全 ， 
监测 停车 场 监控 摄像 头 的 录像 ， 如 果 探 测 到 可 疑 人 的 行动 ， 它 会 提示 不 
在 场 的 安保 人 员 。 在 回 家 路 上 ， 你 在 超市 门口 停车 ， 走 向 超市 货物 通 
道 ， 通 道 借助 学 习 算法 进行 布置 : 该 摆 放 哪些 货物 ， 通 道 末尾 该 展示 哪 
些 产 品 ， 洋 获 番 疗 辣 次 是 人 否 该 放 在 调味 洽 区 域 ， 或 是 放 在 礁 西 哥 玉 米 片 
和 旁边。 你 用 信用 卡 付 蒜 。 学 习 算 法 会 回 你 发 送信 用 卡 支 付 提示 ， 并 在 得 
到 你 的 确认 后 完成 支付 。 为 外 一 个 算法 持续 寻找 可 疑 交 易 ， 如 果 它 觉得 


你 的 卡号 被 盗 ， 则 会 提示 你 。 还 有 一 种 算法 尝试 评估 你 对 这 张 卡 的 满意 
度 ， 如 果 你 是 理想 的 客户 但 对 服务 不 太 满意 ， 银 行 会 在 你 决定 换 卡 之 
前 ， 为 你 提供 更 贴心 的 服务 。 


你 回 到 家 ， 走 到 信箱 劳 ， 发 现 有 朋友 的 一 封 来 信 ， 这 是 通过 能 阅读 
手写 地 址 的 学 习 算 法 派送 的 。 当 然 也 会 有 垃圾 来 信 ， 由 另外 的 学 习 算法 
进行 选择 。 你 停留 了 一 会 儿 ， 呼 吸 夜晚 清新 凉爽 的 空气 。 你 所 在 城市 的 
犯罪 紊 明显 下 降 了 ， 因 为 警察 开始 使 用 统计 算法 来 预测 哪里 的 犯罪 紊 最 
高 ， 并 在 那里 集中 巡警 力量 。 你 和 家 人 共享 晚餐 。 市 长 出 现在 新 闻 里 ， 
你 为 他 投票 ， 因 为 选举 那天 ， 学 习 算 法 确定 你 为 “关键 未 投票 选民 ”之 
后 ， 他 杀 目 给 你 打 了 电话 。 吃 完 晚 餐 ， 你 观看 球赛 ， 两 文 球 队 都 借助 统 
计 学 习 来 挑选 队员 。 你 也 可 能 和 孩子 们 在 Xbox 上 玩 游戏 ，Kinect 三 学 习 
算法 确定 你 在 哪里 、 在 做 什么 。 你 在 睡 前 吃 药 ， 医 生 通 过 学 习 算 法 的 辅 
助 来 设 定 和 检测 吃 药 的 最 佳 时 间 。 医 生 也 可 能 利用 机 器 学 习 来 帮 你 诊断 
疾病 ， 例 如 ， 分 析 X 射 线 结 果 并 和 弄 明白 一 系列 非 正 常 症状 。 


机 器 学 习 参 与 了 你 人 生 的 每 个 阶段 。 如 果 你 为 了 参加 SAT 大 学 入 学 
考试 (美国 学 术 能 力 评估 测试 ) 而 在 网 上 学 习 ， 茶 学 习 算 法 会 给 你 的 练 
习 短 文 打分 。 如 果 你 申请 商学 院 ， 且 最 近 要 参加 GMAT 《经 企管 理 研究 
生 入 学 考试 ) ， 其 中 的 一 个 文章 打分 工具 就 是 一 个 学 习 系 统 。 可 能 当 你 
求职 时 ， 录 学 习 算 法 会 从 虚拟 文件 中 挑选 出 你 的 人 简历， 并 告诉 未 来 的 雇 
主 : 这 位 是 很 不 错 的 人 选 ， 看 看 吧 。 最 近 公司 给 你 加 薪 可 能 还 多 亏 另 外 
的 学 习 算 法 。 如 果 想 买 套 房子 ，Zillow.com 网 站 会 估算 你 看 中 的 每 套房 
的 价值 ， 接 着 房子 就 有 了 着 落 。 之 后 申请 住房 贷款 ， 某 学 习 算法 会 研究 
你 的 申请 ， 并 建议 是 否 可 以 通过 申请 。 节 重要 的 是 ， 如 有 果 你 使 用 在 线 约 
会 服务 ， 机 器 学 习 其 全 可 能 帮 你 找到 人 生 蚀 爱 。 


社会 在 不 断 变 化 ， 学 习 算法 也 是 如 此 。 机 器 学 习 正在 重 塑 科学 、 技 
术 、 商 业 、 政 治 以 及 战争 。 卫 星 、DNA “脱氧 核糖 核酸 ) 测序 仪 以 及 粒 
子 加 速 器 以 前 所 未 有 的 精细 程度 探索 自然 ， 同 时 ， 学 习 算 法 将 庞大 的 数 


据 转 变 成 新 的 科学 知识 。 企 业 从 未 像 现在 这 样 了 解 自己 的 用 户 。 在 美国 
大 选中 ， 拥 有 最 佳 选举 模型 的 候选 人 奥巴马 最 终 战胜 了 对 手 罗 姆 尼 ， 获 
得 了 竞选 胜利 。 无 人 驾驶 汽车 、 轮 船 、 飞 机 分 别 在 陆地 、 海 面 、 空 中 进 
行 生 产 前 测试 。 没 有 人 把 你 的 喜好 编 入 亚 马 进 的 推荐 系统 ， 学 习 算 法 通 
过 汇总 你 过 去 的 购买 经 历 束 能 确定 你 的 喜好 。 谷 歌 的 无 人 驾驶 汽车 通过 
自学 ， 懂 得 如 何在 公路 上 平稳 行驶 ， 没 有 哪个 工程 师 会 编写 算法 ， 一 步 
一 步 指 导 它 该 怎么 走 、 如 何 从 A 地 到 达 B 地 一 一 这 也 没 必要 ， 因 为 配 有 
学 习 算 法 的 汽车 能 通过 观察 司机 的 操作 来 掌握 开车 技能 。 


机 器 学 习 是 “太阳 底下 的 新 鲜 事 ”:， 一 种 能 够 构建 自我 的 技术 。 从 远 
十 祖先 学 会 打磨 石头 开始 ， 人 类 就 一 直 在 设计 工具 ， 无 论 这 些 工 具 是 手 
工 完 成 的 ， 还 是 大 批量 生产 的 。 学 习 算 法 本 身 也 属于 工具 ， 可 以 用 它们 
来 设计 其 他 工具 。“ 计 算 机 军 无 用 处 ，” 毕 加 索 说 ,“ 和 它们 只 能 给 你 提供 
答 采 。” 计 算 机 并 没有 创造 性 ， 它 们 只 能 做 你 让 它们 做 的 事 。 如 果 你 告 
诉 筷 们 要 做 的 事 涉及 创造 力 ， 那 么 吏 要 用 到 机 融 学 习 。 学 习 算 法 就 像 技 
艺 精湛 的 工匠 ， 它 生产 的 每 个 产品 都 不 一 样 ， 而 且 专门 根据 顾客 的 需要 
精细 定制 。 但 是 不 像 把 石头 变 成 砖 、 把 金子 变 成 珠宝 ， 学 习 算 法 是 把 数 
据 变 成 算法 。 它 们 掌握 的 数据 越 多 ， 算 法 也 就 越 精准 。 


现代 人 和 希望 让 世界 来 适应 自己， 而 不 是 改变 目 己 来 适应 世界 。 机 器 
学 习 是 100 万 年 传奇 中 最 新 的 篇 章 : 有 了 它 ， 不 费 吹 灰 之 力 ， 世 界 就 能 
感知 你 想 要 的 东西 ， 并 依 此 做 出 改变 。 惑 像 刁 处 魔法 林 ， 在 你 通过 时 ， 
周围 的 环境 (今天 虚拟 ， 明 天 现实 〉 会 进行 目 我 重组 。 你 在 树木 和 洪森 
中 选 出 的 路 线 会 变 成 一 条 路 ， 迷 路 的 地 方 还 会 出 现 指 路 标志 。 


这 些 看 似 有 奢 力 的 技术 十 分 有 用 ， 因 为 机 器 学 习 的 核心 就 是 预测 : 
预测 我 们 想 要 什么 ， 预 测 我 们 行为 的 结果 ， 预 测 如 何 能 实现 我 们 的 目 
标 ， 预 测 世 界 将 如 何 改 变 。 从 前 ， 我 们 依赖 耻 医 和 占卜 师 进 行 预测 ， 但 
他 们 太 不 可 靠 ; 科学 的 预测 就 更 值得 信赖 ， 但 也 仅 限 于 我 们 能 系统 观 妈 
和 易于 模仿 的 事物 ， 大 数据 和 机 器 学 习 却 大 大 超出 这 个 范围 。 我 们 可 通 


过 独立 的 思维 来 预测 一 些 常 见 的 事情 ， 包 括 接 球 和 与 人 对 话 ， 但 有 些 事 
情 ， 即 便 我 们 很 努力 ， 也 无 法 预测 。 可 预测 与 难以 预测 之 间 的 巨大 鸿 
沟 ， 可 以 交 给 机 器 学 习 来 填补 。 


矛盾 的 是 ， 尽 管 学 习 算 法 在 自然 和 人 类 行为 领域 开辟 了 新 天 地 ， 但 
它们 仍 笼 单 在 神秘 之 中 。 媒 体 每 天 都 报道 涉及 机 器 学 习 的 新 闻 : 苹果 公 
司 发 布 Siri 个 人 助理 ，IBM 三 沃 森 (IBM 的 超级 计算 机 〉 在 《危险 边 
缘 》 游 戏 中 战胜 了 人 类 ， 塔 吉 特 〈Target) 能 在 未 成 年 妈妈 的 父母 发 现 
之 前 通知 她 怀孕 ， 美 国 国家 安全 局 在 寻找 信息 连接 点 ..…. 在 这 些 新 闻 事 
件 中 ， 学 习 算 法 如 何 起 作用 仍 不 得 而 知 。 计 算 机 “ 知 入 ” 数 以 万 亿 的 字 
节 ， 并 神奇 地 产生 新 的 观点 ， 关 于 大 数据 的 书籍 甚至 也 避 谈 “这 个 过 程 
到 底 发 生 了 什么 ”。 我 们 一 般 认 为 学 习 算 法 就 是 找到 两 个 事件 之 间 的 联 
结 点 ， 例 如 ， 用 谷歌 搜索 “感冒 药 ” 和 患 感冒 之 间 的 联系 。 然 而 ， 寻 找 联 
结 点 与 机 器 学 习 的 关系 就 像 是 砖 与 房子 的 关系 ， 房 子 是 由 砖 组 成 的 ， 但 
一 推 砖头 肯定 不 能 称 之 为 “房子 ”。 


当 一 项 新 技术 同 机 器 学 习 一 样 流行 且 具 有 是 命 性 时 ， 不 卉 明白 其 中 
的 奥妙 实在 太 可 惜 。 模 棱 两 可 会 导致 误 赤 和 滥用 。 亚 马 进 的 算法 能 断定 
当今 世界 人 们 在 读 什 么 书 ， 这 一 点 比 谁 都 强 。 美 国 国家 安全 局 的 算法 能 
断定 你 是 否 为 潜在 式 怖 分 子 。 气 候 模 型 可 以 判定 大 气 中 二 氧化 碳 的 安全 
水 平 。 选 股 模型 比 我 们 当中 的 多 数 人 更 能 推动 经 济 发 展 。 你 无 法 控制 目 
己 理 解 不 了 的 东西 ， 这 也 是 追求 笠 福 的 公民 、 专 家 或 普通 人 需要 了 解 机 
器 学 习 的 原因 。 


本 书 的 第 一 个 目标 就 是 揭示 机 器 学 习 的 秘密 。 只 有 工程 师 和 机 修 工 
有 必要 知道 汽车 发 动机 如 何 运 作 ， 但 每 位 司机 都 必须 明日 转动 方 回 盘 会 
改变 汽车 的 方向 、 踩 刹车 会 让 车 停 下 。 当 今 极 少 有 人 知道 学 习 算 法 对 应 
的 原理 是 什么 ， 更 不 用 说 如 何 使 用 学 习 算 法 。 心 理学 家 丹 : 诡 曼 (Don 
Norman) 创造 了 “概念 模型 ” (conceptual model) 这 个 新 词 ， 代 指 为 了 
有 效 利 用 某 项 技术 而 需 粗 略 掌握 的 知识 。 本 书 束 将 介绍 机 器 学 习 的 概念 


模型 。 


并 不 是 所 有 算法 的 工作 原理 都 相同 ， 这 些 兰 异 会 产生 不 同 的 结果 ， 
比如 亚马逊 和 网 发 的 推荐 系统 。 假 设 这 两 个 系统 试 痢 根据 “你 喜欢 的 东 
西 ? 来 对 你 进行 引导 ， 亚 马 逊 很 有 可 能 会 把 你 带 到 你 之 前 常 浏览 的 书籍 
类 别 ， 网 飞 则 可 能 会 把 你 带 到 你 不 熟悉 且 似 乎 有 点 奇怪 的 区 域 ， 并 引导 
你 爱 上 那里 。 在 本 书 当 中 ， 我 们 会 看 到 诸如 亚马逊 、 网 飞 之 类 的 公司 使 
用 的 各 式 各 样 的 算法 。 与 亚马逊 相 比 ， 网 飞 公 司 的 算法 对 你 的 爱好 理解 
得 更 深 (尽管 还 是 很 有 限 ) ， 然 而 具有 讽刺 意味 的 是 ， 这 并 非 意 味 着 亚 
马 逊 也 应 该 利用 这 个 算法 。 网 飞 的 商业 模式 是 依靠 毗 汲 的 电影 、 电 视 节 
目的 长 尾 效 应 来 推动 需求 ， 这 些 电 影 和 节目 的 成 本 很 低 。 它 一 般 不 推荐 
大 片 ， 因 为 你 的 会 员 订 阅 费 可 能 有 限 。 亚 马 逊 则 没有 这 样 的 问题 : 尽管 
擅长 利用 长 尾 效应 ， 但 它 同样 乐意 把 更 昂贵 的 热 销 商品 卖 给 你 ， 这 也 会 
简化 其 物流 工作 。 对 于 那些 奇怪 的 产品 ， 如 果 是 订阅 会 员 可 免费 享用 
的 ， 我 们 可 能 会 乐意 去 尝试 ， 而 如 果 需 要 为 外 掏 钱 ， 我 们 去 选择 它们 的 
可 能 性 就 小 得 多 。 


每 年 都 会 出 现 上 百 种 新 的 算法 ， 但 它们 都 是 基于 几 个 相似 的 基本 思 
路 。 为 了 明白 机 器 学 习 如 何 改变 世界 ， 你 有 必要 理解 这 些 思路 。 本 书 就 
将 对 此 进行 介绍 。 学 习 算 法 并 不 是 那么 深奥 难 懂 ， 除 了 运用 在 计算 机 
上 ， 对 于 我 们 来 说 很 重要 的 问题 都 可 以 通过 学 习 算 法 找到 答案 ， 比 如 : 
我 们 如 何 学 习 ? 有 没有 更 好 的 方法 ? 我 们 能 预测 什么 ”我们 能 信任 所 学 
的 知识 吗 ? 对 这 些 问 题 ， 机 器 学 习 的 各 个 学 派 有 不 同 的 答案 。 


机 器 学 习 主 要 有 5 个 学 派 ， 我 们 会 对 每 个 学 派 分 别 介 绍 : 符号 学 派 
将 学 习 看 作 逆 向 演绎 ， 并 从 哲学 、 心 理学、 逻辑 学 中 寻求 洞 见 ， 联 结 学 
派对 大 脑 进行 逆向 分 析 ， 灵 感 来 源 于 神经 科学 和 物理 学 ， 进 化 学 派 在 计 
算 机 上 模拟 进化 ， 并 利用 遗传 学 和 进化 生物 学 知识 ; 贝 叶 斯 学 派 认为 学 
习 是 一 种 概率 推理 形式 ， 理 论 根 基 在 于 统计 学 ;， 类推 学 派 通 过 对 相似 性 
判断 的 外 推 来 进行 学 习 ， 并 受 心 理学 和 数学 最 优化 的 影响 。 在 构建 机 器 


学 习 的 目标 推动 下 ， 我 们 将 回顾 过 去 100 年 的 思想 史 ， 并 以 新 的 观点 来 
看 符 这 段 历 史 。 


机 器 学 习 的 5 个 学 派 都 有 目 己 的 主 算法 ， 利 用 这 种 万 能 学 习 算 法 ， 
原则 上 ， 你 可 以 通过 任何 领域 的 数据 来 挖掘 知识 : 符 写 学 派 的 主 算法 是 
逆 问 演绎 ， 联 结 学 派 的 主 算法 是 反 同 传播 ， 进 化 学 派 的 主 算法 是 遗传 编 
程 ， 贝 叶 斯 学 派 的 主 算 法 是 贝 叶 斯 推理 ， 类 推 学 派 的 主 算法 是 支持 向 量 
机 。 在 实践 中 ， 这 些 算 法 可 能 在 有 些 工作 中 可 用 ， 而 在 其 他 工作 中 不 可 
用 。 我 们 真正 想 要 寻找 的 是 能 够 综合 这 5 种 算法 的 终极 算法 。 虽 然 有 些 
人 认为 这 难以 实现 ， 但 对 机 器 学 习 领域 的 人 来 说 ， 这 个 梦想 赋予 我 们 力 
量 ， 促 使 我 们 夜以继日 地 工作 。 


如 果 存 在 终极 算法 ， 那 么 它 可 以 通过 数据 学 得 包括 过 去 的 、 现 在 的 
以 及 未 来 的 所 有 知识 。 创 造 终极 算法 将 是 科学 历史 上 最 伟大 的 进步 之 
一 。 它 可 以 加 速 各 类 知识 的 进步 ， 并 以 我 们 现在 甚至 无 法 想象 的 方式 改 
变 世 界 。 终 极 算 法 与 机 器 学 习 的 关系 就 像 标准 模型 和 粒子 物理 学 或 中 心 
法 则 与 分 子 生物 学 的 关系 : 该 统一 原理 能 理解 人 类 当今 知道 的 一 切 ， 并 
为 未 来 数 十 年 或 者 数 百年 的 进步 黄 定 基础 。 今 天 我 们 面临 许多 难题 ， 比 
如 制造 家 用 机 器 人 和 治愈 癌症 ， 终 极 算法 就 是 解决 这 些 难 题 的 关键 。 


以 癌症 为 例 。 治 人 钝 癣 症 十 分 困难 ， 因 为 它 往往 是 一 种 综合 疾病 。 肿 
瘤 可 由 各 种 原因 诱 友 ， 且 在 转移 时 会 及 生 突 变 。 儿 死 肿瘤 细胞 最 可 徘 的 
方法 是 对 其 基因 进行 排序 ， 弄 明白 哪些 药物 可 以 抵抗 六 细 胞 (这 种 方法 
不 会 对 人 造成 伤害 ， 患 者 必须 提供 基因 和 用 药 史 ) ， 甚 至 为 你 专门 研制 
一 种 新 药 。 没 有 哪个 医生 能 够 掌握 该 过 程 所 需 的 所 有 知识 。 对 于 机 器 学 
习 来 说 ， 这 却 是 再 合适 不 过 的 任务 。 实 际 上 ， 与 亚马逊 和 网 飞 每 天 所 做 
的 搜索 工作 相 比 ， 它 的 工作 是 为 你 找到 正确 的 疗法 ， 而 不 是 合适 的 书籍 
或 者 电影 ， 而 且 它 的 工作 更 为 复 森 ， 也 更 具 挑 战 。 遗 憾 的 是 ， 虽 然 当 今 
的 学 习 算 法 能 以 超出 人 类 水 平 的 精确 度 来 诊断 疾病 ， 但 治愈 癌症 仍 远 远 
超出 它们 的 理解 范围 。 如 果 我 们 可 以 找到 终极 算法 ， 这 将 不 再 是 难题 。 


因此 ， 本 书 的 第 二 个 目标 就 是 帮 你 创造 终极 算法 。 你 可 能 会 认为 这 
需要 蜗 深 的 数学 运算 和 严 刘 的 理论 方面 的 工作 ， 正 相反 ， 它 需要 暂时 放 
下 数学 奥秘 ， 来 观看 各 种 学 习 行为 包罗 万 象 的 模型 。 对 外 行人 来 说 ， 他 
们 就 像 从 远方 赶 到 终极 算法 这 片 森 林 ， 从 攻 些 角度 看 ， 他 们 比 专家 更 适 
合 创 造 终极 算法 ， 因 为 专家 对 茶 些 学 科 已 经 过 于 投入 。 一 旦 我 们 有 了 概 
念 性 的 解决 方法 ， 束 能 补充 数学 上 的 细 市 ， 但 这 不 是 本 书 的 目标 和 重 
扩 。 我 们 之 所 以 谈论 每 个 学 派 ， 是 为 了 收集 它们 的 观点 ， 并 找到 其 适用 
之 处 。 请 记 住 ， 没 有 哪个 盲人 能 了 解 整 头 大 象 。 我 们 会 尤其 关注 哪个 学 
派 能 对 治疗 癌症 做 出 贡献 ， 也 关注 该 学 派 的 缺失 。 然 后 ， 我 们 会 将 所 有 
观点 集中 ， 一 步 步 地 变 成 解决 方案 一 这 个 解决 方案 可 能 还 不 是 终极 算 
法 ， 但 已 是 我 们 能 找到 的 最 接近 终极 算法 的 方案 。 希望 它 能 解放 你 的 大 
脑 ， 让 你 大 胆 想象 。 当 你 阅读 本 书 时 ， 如 果 觉 得 菜 些 间 市 读 起 来 困难 ， 
可 以 随意 略 读 甚至 跳 过 它们 。 本 书 的 概要 才 是 重 中 之 重 ， 当 明日 所 有 学 
派 的 观点 之 后 ， 如 有 果 你 重读 那些 困难 的 章节 ， 收 获 可 能 会 比 之 前 更 多 。 


我 研究 机 器 学 习 已 经 有 20 余 年 了 。 我 对 机 器 学 习 的 兴趣 因 一 本 书 而 
起 ， 大 四 时 我 在 书店 看 到 这 本 书 名 很 奇怪 的 书 《人 工 智能 》 
CArtificial Intelligenc) 。 那 本 书 只 有 一 个 章节 是 关于 机 器 学 习 的 ， 但 读 
那个 章节 时 ， 我 立即 确定 ， 学 习 是 实现 人 工 智 能 的 关键 ， 而 且 当时 技术 
水 平 如 此 原始 ， 我 也 许 能 做 点 什么 。 所 以 我 搁置 了 读 MBA (工商 管理 
硕士 ) 的 计划 ， 到 加 利 福 尼 亚 欧 文 分 校 攻 读 博 士 。 机 器 学 习 当 时 是 一 个 
小 众 且 鲜 为 人 知 的 领域 ,研究 人 员 室 究 无 几 ， 但 加 利 福 尼 亚 大 学 却 拥有 
一 个 巨大 的 研究 团队 。 一 些 同学 中 途 放 弃 了 ， 因 为 他 们 看 不 到 机 器 学 习 
的 未 来 ， 而 我 坚持 了 下 来 。 对 我 来 说 ， 没 有 什么 能 比 教 计算 机 学 习 更 有 
吸引 力 的 了 : 如 果 我 们 做 到 这 一 点 ， 其 他 问题 就 会 迎刃而解 。5 年 后 我 
毕业 了 ， 那 时 数据 挖掘 技术 十 分 流行 ， 我 开始 写 这 本 书 。 我 的 博士 论文 
结合 了 符号 学 派 和 类 推 学 派 的 观点 。 过 去 10 年 ， 我 一 直 在 整合 符号 学 派 
和 贝 叶 斯 学 派 的 观点 ， 最 近 叉 在 尝试 整合 它们 与 联结 学 派 的 观点 。 是 时 
候 进 行 下 一 步 研 究 ， 并 尝试 综合 这 5 个 范式 了 。 


写 这 本 书 时 ， 我 的 脑海 里 浮现 出 各 式 各 样 但 又 有 相似 之 处 的 读者 。 


围绕 大 数据 以 及 机 器 学 习 的 讨论 充满 争议 ， 如 果 你 对 此 感到 好 奇 ， 
且 怀 疑 有 比 论 文 上 看 到 的 更 为 深层 次 的 东西 ， 那 么 这 本 书 就 是 你 进行 章 
命 的 指南 。 


如 果 你 的 主要 兴趣 是 机 器 学 习 的 商业 用 途 ， 那 么 本 书 至 少 能 通过 6 
种 方法 帮助 你 : 成 为 分 析 学 中 更 精明 的 消费 者 ， 充 分 利用 你 的 数据 专 
家 ; 减少 许多 数据 挖掘 项 目的 隐患 ， 看 看 如 果 不 买 手写 编码 软件 ， 你 能 
让 什么 进行 自动 操作 ;降低 信息 系统 的 僵硬 度 ;， 期 竺 正 朝 你 走 来 的 新 技 
术 。 我 见 过 太 多 浪费 大 量 时 间 和 金钱 去 解决 难题 的 人 ， 他 们 使 用 了 错误 
的 学 习 算法 ， 或 者 误解 了 学 习 算法 的 合 义 。 要 避免 这 些 惨 败 ， 实 际 上 ， 
你 只 需要 阅读 这 本 书 。 


如 果 你 是 普通 人 或 者 决策 者 ， 关 注 由 大 数据 和 机 器 学 习 引 发 的 社会 
和 政治 问题 ， 那 么 本 书 将 为 你 提供 该 技术 的 入 门 知 识 : 什么 是 机 器 学 
习 ， 机 器 学 习 能 干什么 、 不 能 干什么 。 本 书 没有 让 你 觉得 乏味 的 复杂 细 
节 。 从 隐私 问题 到 未 来 的 工作 ， 以 及 机 器 人 化 引起 战争 的 道德 观 ， 我 们 
会 看 到 真正 的 问题 所 在 ， 以 及 如 何 正确 思考 。 


如 果 你 是 科学 家 或 者 工程 师 ， 那 么 机 需 学 习 肯 定 是 你 不 想 错过 的 有 
力 武器 。 在 大 数据 时 代 《〈 即 便 是 中 型 数据 时 代 ) ， 陈 旧 的 、 人 靠得住 的 统 
计 工 具 并 不 会 让 你 走 得 更 远 。 你 需要 的 是 机 器 学 习 的 非 线性 扩 术 来 精确 
模仿 多 种 现象 ， 它 会 剖 来 全 新 的 、 科 学 的 世界 观 。 今 天 ,“ 范 式 转移 ”家 
人 们 用 得 过 于 随意 ， 但 我 可 以 宣 不 伪 张 地 资 ， 本 书 要 讲 的 内 容 就 是 
和 “范式 转移 ”相关 。 


如 果 你 是 机 器 学 习 专 家 ， 那 么 你 可 能 对 本 书 的 大 部 分 内 容 已 经 相当 
熟悉 ， 但 你 仍 会 发 现 其 中 有 许多 新 绪 的 看 法 、 经 典 的 观点 ， 以 及 有 用 的 
例子 和 类 比 。 很 大 程度 上 ， 我 希望 本 书 能 提出 与 机 器 学 习 相 关 的 、 新 的 
看 法 ， 甚 至 能 让 你 开始 思考 新 的 方向 。 我 们 号 边 到 处 是 容易 达成 的 目 


标 ， 我 们 理应 追寻 这 种 目标 ， 但 我 们 也 不 应 忽略 不 远 处 就 有 更 大 的 目标 
《天 于 这 一 点 ， 我 布 望 你 们 能 原 访 我 诗意 地 用 “终极 算法 ?来 指 通用 型 学 
习 算 法 ) 。 


如 末 你 是 学 生 ， 无 论 你 多 大 ， 是 考虑 该 选 什么 专业 的 高 中 生 ， 还 是 
决定 该 研究 什么 领域 的 本 科 生 ， 或 者 是 考虑 转行 、 经 验 丰 富 的 专家 ， 我 
希望 本 书 能 让 你 对 这 个 令 人 着 迷 的 领域 感 兴趣 。 当 今世 界 极度 缺乏 机 器 
学 习 专 家 ， 如 果 你 决定 加 入 这 一 行列 ， 你 不 仅 能 得 到 令 人 激动 的 时 刻 和 
丰厚 的 物质 回报 ， 还 有 服务 社会 的 大 好 机 会 。 如 果 你 已 经 在 研究 并 学 习 
主 算法 ， 我 希望 本 书 能 帮 你 了 解 它 的 历史 。 如 果 你 在 旅途 中 侦 然 友 现 本 
书 ， 也 值得 你 用 心 阅读 。 


最 后 要 强调 一 点 ， 如 果 你 淘 望 奇迹 ， 那 么 机 器 学 习 对 你 来 说 就 是 一 
场 精 神 盛 豆 。 我 城 丽 地 邀请 你 一 同 前 往 。 


1. Kinect 是 微软 对 Xbox360 体 感 周边 外 设 正式 发 布 的 名 字 。 编者 注 
2. IBM， 国 际 商业 机 器 公司 。 编者 注 


我 们 生活 在 算法 的 时 代 。 一 两 代 人 以 前 ， 提 到 “算法 ”这 个 词 ， 可 能 
多 数 人 会 脑 中 一 片 空 掉 。 当 今 ， 文 明 社 会 的 每 个 角落 都 存在 算法 ， 日 党 
生活 的 每 分 每 秒 也 都 和 算法 有 关 。 算 法 不 仅 存在 于 你 的 手机 或 笔记 本 电 
脑 ， 还 存在 于 你 的 汽车 、 房 子 、 家 电 以 及 玩具 当中 。 当 人 们 进出 银行 
时 ， 银 行 系统 就 是 由 各 种 算法 交织 而 成 的 庞大 集合 体 。 算 法 安排 航班 ， 
也 驾驶 飞机 。 算 法 能 经 营 工 三、 进行 交易 、 运 输 货物 、 处 理 现 金 收 荔 ， 
还 能 保存 记录 。 如 果 所 有 算法 剖 突 然 集 止 运转 ， 那 么 就 是 人 类 的 世界 末 


算法 就 是 一 系列 指令 ， 告 诉 计算 机 该 做 什么 。 计 算 机 是 由 几 十 亿 个 
微小 开关 《〈 称 为 晶体 管 ) 组 成 的 ， 而 算法 能 在 一 秒 内 打开 并 关闭 这 些 开 
关 儿 十 亿 次 。 最 简单 的 算法 是 触动 开关 。 一 个 晶体 管 的 状态 残 是 一 个 比 
特 信息 : 如 果 开 关 打 开 ， 信 息 就 是 1; 如 果 开 天 关闭 ， 信 息 就 是 9。 银行 
的 计算 机 的 茶 个 比特 信息 会 显示 你 的 账户 是 人 否 已 透 文 。 美 国 社会 保障 总 
车 的 计算 机 的 茶 个 比特 信息 表明 你 是 活着 还 是 已 死亡 。 第 二 简单 的 算法 
是 : 把 两 个 比特 结合 起 来 。 克 劳 德 :香农 以 “信息 论 之 父 ” 而 为 人 所 知 ， 
他 第 一 个 意识 到 晶体 管 的 活动 束 是 在 运算 ， 因 为 晶体 管 开 了 叉 和 天 ， 是 对 
其 他 晶体 管 的 回应 (这 是 他 在 麻 省 理工 学 院 的 硕士 论文 一 一 有 史 以 来 最 


意义 的 硕士 论文 ) 。 如 果 A 蝇 体 管 只 有 在 B 和 C 晶 体 管 都 打开 时 才 打 
开 ， 那 么 这 时 它 就 是 在 做 小 型 的 多 辑 运 算 。 如 果 A 铝 体 管 在 B 和 C 品 体 管 
其 中 一 个 打开 时 才 打 开 ， 束 是 另外 一 种 小 型 逻辑 运算 。 如 采 A 品 体 管 在 
B 品 体 管 任 何 关 闭 的 时 候 打 开 ， 或 者 反 过 来 ， 这 又 是 第 三 种 运算 。 信 不 
信 由 你 ， 所 有 算法 ， 无 论 多 复 洒 ， 部 能 分 解 为 这 三 种 人 逻辑 运算 且 ， 
或 ， 非 。 利 用 不 同 的 符号 来 代 答 “上 且 关 或 关 非 >? 运算， 简单 的 算法 就 可 以 
用 图 表 来 表示 。 例 如 ， 如 果 发 伐 可 由 感冒 或 者 闪 疾 引起 ， 那 么 你 应 该 用 
泰语 来 治疗 及 烧 和 头疼 ， 可 以 用 图 1-1 表 示 。 


通过 结合 许多 这 样 的 逻辑 运算 ， 我 们 可 以 进行 极其 复杂 的 逻辑 推 
理 。 人 们 往往 认为 计算 机 只 和 数字 有 关 ， 其 实 并 非 如 此 ， 它 完全 关乎 多 
辑 。 数 字 和 算术 都 是 由 逻辑 构成 的 ， 而 计算 机 的 所 有 其 他 部 分 也 是 如 
此 。 想 把 两 个 数 相 加 ? 可 以 由 品 体 管 的 组 合体 来 完成 。 想 电 得 《危险 边 
缘 》 智 力 比 赛 ? 也 可 以 由 晶体管 的 组 合体 来 完成 〈 当 然 ， 这 个 组 合体 庞 


大 得 多 ) 。 


即便 如 此 ， 为 了 做 不 同 的 事 而 制造 新 的 计算 机 代价 过 于 昂贵 。 当 
然 ， 现 代 计 算 机 是 各 种 晶体 管 的 大 集合 ， 能 做 许多 不 同 的 事 ， 这 取决 于 
哪些 晶体 管 被 激活 。 米 开关 琪 罗 说 过 ， 他 所 做 的 一 切 ， 就 是 从 大 理 石 石 
块 中 看 出 雕像 ， 然 后 将 多 余 的 石头 刻 反 ， 百 到 雕像 的 形状 显现 出 来 。 同 
样 ， 算 法 排除 计算 机 中 多 余 的 晶体 管 ， 直 到 出 现 想 要 的 功能 ， 无 论 是 客 
机 的 自动 驾驶 仪 ， 还 是 皮克斯 的 新 电影 ， 原 理 都 是 这 样 。 


一 种 算法 不 仅 是 简单 的 一 套 指 令 ， 这 些 指令 必须 精确 且 不 能 模糊 ， 
这 样 计算 机 才能 够 执行 。 例 如 ， 食 谱 并 不 算 一 种 算法 ， 因 为 食谱 没有 明 
确 给 出 做 事 的 顺序 ， 或 者 其 体 每 一 步 是 怎样 的 。 一 勺 日 糖 到 的 是 几 殉 ? 
每 个 尝试 新 食谱 的 人 都 知道 ， 跟 着 食 谱 做 ， 可 能 会 做 出 很 美味 的 食物 ， 
也 可 能 会 做 得 一 塌 糊 深 。 相 比 之 下 ， 算 法 总 能 得 出 同样 的 结果 。 即 便 食 
详 明 确 指出 需要 半 盘 司 白 糖 ， 计 算 机 也 不 知道 如 何 执 行 ， 因 为 计算 机 不 
知道 什么 是 白糖 、 什 么 是 七 司 。 如 宋 我 们 想 对 厨 用 机 器 人 编程 ， 让 和 它 来 
做 香 糕 ， 我 们 要 通过 视频 教 它 如 何 辨认 白糖 、 如 何 拿 起 勺子 等 《我 们 现 
在 仍 在 努力 ) 。 计 算 机 必须 知道 如 何 执行 算法 ， 直 到 打开 及 关闭 指定 的 
晶体 管 。 因 此 ， 食 谱 离 算法 还 很 远 。 


另 一 方面 ， 下 面 是 玩 井 字 棋 的 算法 : 


如 果 你 或 对 手 有 两 粒 连 子 ， 占 据 剩 下 的 角落 。 
否则 ， 如 果 两 边 有 两 个 连 子 的 走 法 ， 就 那样 走 。 
否则 ， 如 果 正 中 央 是 空 的 ， 走 正中 央 。 

和 否则， 如 果 你 的 对 手 走 到 角落 ， 占 据 他 的 对 角 。 
和 否则， 如果 有 空白 的 角落 ， 上 占据 它 。 

否则 ， 占 据 住 意 空 白 的 角落 。 

这 个 算法 有 很 大 的 优点 ， 那 就 是 它 绝 对 不 会 输 。 当 然 ， 它 仍 忽略 了 
许多 细节 ， 比 如 在 计算 机 的 记忆 中 ， 棋 盘 如 何 表 示 ， 而 棋 的 走 法 又 如 何 
改变 这 种 表示 方法 。 例 如 ， 每 个 角落 我 们 有 两 个 比特 ， 如 果 中 间 是 空 
的 ， 值 就 是 00， 如 果 有 一 个 圈 ， 值 就 变 成 01; 如 果 有 一 个 又 ， 值 就 变 成 
10。 即 便 如 此 ， 这 也 足够 精确 、 清 晰 ， 能 让 有 人 能力 的 编程 员 来 填补 被 名 
略 的 空白 。 它 还 有 一 个 好 处 ， 就 是 不 用 我 们 上 自己 指定 算法 ， 细 到 单个 晶 
体 管 。 在 构建 数据 存储 块 时 ， 我 们 可 以 使 用 之 前 存在 的 算法 ， 而 且 有 很 
多 这 样 的 算法 供 选 择 。 


算法 是 一 套 严 格 的 标准 。 人 们 第 说 ， 你 没 法 真正 了 解 菜 样 东西 ， 直 
到 你 能 用 一 种 算法 来 将 其 表达 出 来 〈 理 查 德 . 费 曼 曾 说 , “如 果 我 无 法 创 
造 某 样 东西 ， 那 么 也 就 无 法 理解 它 ”) 。 方 程式 对 物理 学 家 和 工程 师 来 
说 束 是 谋生 工具 ， 而 这 也 仪 仪 是 一 种 特殊 算法 。 例 如 ， 牛 顿 第 二 定律 ， 
可 以 说 是 有 史 以 来 最 重要 的 等 式 ， 告 诉 你 用 物体 的 质量 乘 以 其 加 速度 ， 
可 以 算出 作用 在 物体 上 的 力 。 该 定律 还 隐 仿 地 告诉 你 ， 加 速度 等 于 作用 
力 除 以 质量 ， 要 和 卉 明白 这 一 点 ， 只 需 一 个 运算 步 又 。 在 科学 的 任何 领 
域 ， 如 采 茶 个 理论 无 法 用 算法 表示 ， 那 么 它 就 不 是 很 严谨 “更 别提 你 无 
法 用 计算 机 来 解决 这 个 问题 ， 因 为 你 能 让 计算 机 蔡 你 做 的 事实 在 太 有 
限 ) 。 科 学 家 提出 理论 ， 工 程 师 制 造 设 备 ， 计 算 机 科学 家 提出 算法 ， 这 
和 理论 及 设备 部 有 关 。 


设计 算法 并 没有 那么 简单 。 这 个 过 程 充满 陷阱 ， 什 么 事 都 不 能 想 当 
然 。 如 果 你 的 一 些 构建 已 经 出 错 ， 葡 得 找 其 他 方法 。 设 计算 法 最 重要 的 
一 点 就 是 ， 你 得 用 一 种 计算 机 能 理解 的 语言 来 将 算法 记录 下 来 ， 比 如 
Java 或 者 Python 〈 从 这 个 角度 看 ， 就 是 一 个 程序 ) 。 接 下 来 ， 你 得 对 其 
进行 纠 错 : 找 出 每 个 误差 并 修正 ， 直 到 计算 机 能 够 运行 程序 ， 而 不 至 于 
搞 磺 。 一 旦 你 有 了 能 完成 你 心愿 的 程序 ， 惑 轻松 多 了 。 计 算 机 会 以 飞快 
的 速度 ， 按 我 们 的 要 求 办 事 ， 而 且 坚 无 优 言 。 世 界 上 的 每 个 人 都 能 主 用 
你 的 创作 成 果 。 如 果 你 愿意 ， 这 个 成 果 可 以 一 文 不 收 ; 当然 ， 如 果 你 解 
决 的 问题 足够 有 意义 ， 这 个 成 果 也 可 以 让 你 成 为 亿 万 是 伍 。 程 序 员 〈 创 
造 算 法 并 将 其 编码 的 人 ) 是 一 个 “小 神 郝 ”， 能 任意 创造 不 同 的 世界 。 其 
至 你 也 可 以 说 《对 经 - 创 世 记 》 里 的 神 也 是 “程序 员 ”:， 语言 (而 不 是 统 
治 权 ) 才 是 他 创造 世界 的 工具 。 语 言 构成 了 这 个 世界 。 当 今 时 代 ， 坐 在 
沙发 上 利用 笔记 本 电脑 ， 你 束 可 以 成 为 一 个 “ 神 ”。 你 完全 可 以 想象 一 个 
世界 ， 并 实现 它 。 

有 朝 一 日 ， 计 算 机 科学 家 会 互相 依赖 各 目的 成 果 ， 然 后 为 新 事物 创 


造 算 法 。 这 些 算 法 会 与 其 他 算法 相 结合 ， 目 的 是 利用 其 他 算法 的 成 果 ， 
反 过 来 产生 能 服务 更 多 算法 的 成 果 。 每 一 秒 钟 ， 数 十 亿 计 算 机 里 的 数 十 


亿 唱 体 管 会 打开 关闭 数 十 亿 次 。 算 法 形成 新 型 生态 系统 ， 它 将 生生 不 
恩 ， 具 有 无 可 比拟 的 生命 多 样 性 。 


然而 ， 不 可 避免 地 ， 在 这 个 “伊甸园 ?里 也 会 有 狼 独 的 人 存在 ， 人 们 
称 之 为 “复杂 性 怪兽 ”。 和 九 头 蛇 一 样 ， 这 个 复杂 性 怪兽 有 很 多 头 ， 其 中 
一 个 就 是 空间 复杂 性 ， 即 为 了 储存 在 计算 机 内 存 中 ， 一 个 算法 所 需 信 息 
的 比特 数量 。 如 果 计 算 机 无 法 提供 该 算法 所 需 的 内 存 ， 那 么 这 个 算法 就 
没 用 ， 必 须 忽 略 。 接 着 是 邪恶 的 同类 一 一 时 间 复 杂 性 ， 该 算法 运行 多 长 
时 间 ， 也 就 是 说 ， 在 产生 想 要 的 结果 之 前 ， 算 法 利用 及 重新 利用 晶体 管 
的 步骤 有 多 少 。 如 果 算法 运行 时 间 太 久 ， 我 们 等 不 了 ， 那 么 这 个 算法 也 
没 用 。 复 杂 怪 甸 最 芍 怖 的 一 面 束 是 人 类 的 复杂 性 。 当 算法 变 得 很 复杂 以 
致 人 类 大 脑 已 无 法 理解 ， 当 算法 不 同 部 分 的 交互 过 多 且 过 于 深入 时 ， 误 
差 束 会 悄然 潜入 。 我 们 找 不 到 这 些 误差 ， 也 就 无 法 纠正 它们 ， 算 法 也 就 
不 会 做 我 们 想 做 的 事 。 即 便 我 们 让 它 运 行 起 来 ， 它 也 会 停 下 来 。 对 使 用 
它 的 人 来 说 ， 它 没 必 要 那么 复 森 ， 而 且 它 和 其 他 算法 也 合作 得 不 好 ， 这 
为 日 后 埋 下 隐患 。 


每 位 计算 机 科学 家 每 天 都 在 和 “复杂 性 怪兽 ”做 斗争 。 如 果 科 学 家 输 
了 这 场 斗争 ， 复 杂 性 束 会 渗入 我 们 的 生活 。 你 可 能 已 经 注意 到 ， 很 多 这 
样 的 斗争 科学 家 已 经 输 了 。 即 便 如 此 ， 我 们 也 会 继续 构建 我 们 的 算法 之 
塔 ， 并 迎接 越 来 越 大 的 挑战 。 每 一 代 新 的 算法 都 要 在 之 前 的 基础 上 构 
建 ， 除 了 这 代 算 法 的 复杂 性 ， 它 们 还 面临 之 前 算法 的 复杂 性 。 塔 会 变 得 
越 来 越 高 ， 会 履 盖 整个 世界 ， 但 它 也 会 变 得 越 来 越 脆弱 ， 像 一 座 纸 片 做 
的 房子 ， 随 时 都 会 倒塌 。 算 法 里 的 微小 误差 可 能 导致 价值 10 亿 美元 的 火 
和 荫 爆 炸 ， 或 者 可 能 导致 停电 ， 造 成 数 百 万 美元 的 损失 。 算 法 以 意 想 不 到 
的 方式 进行 交互 ， 股 票 市 场 束 会 朋 演 。 


如 琳 程序 员 是 “小 神 ”， 复 杂 性 怪兽 就 是 魔鬼 。 慢 慢 地 ， 魔 名 会 局 得 
战争 。 


总 得 有 个 更 好 的 方法 来 与 魔鬼 做 斗争 。 


= 


每 个 算法 都 会 有 输入 和 和 输出: 数据 输入 计算 机 ， 算 法 会 利用 数据 完 
成 接 下 来 的 事 ， 然 后 结果 就 出 来 了 。 机 器 学 习 则 题 倒 了 这 个 顺序 ， 输入 
数据 和 想 要 的 结果 ， 输 出 的 则 是 算法 ， 即 把 数据 转换 成 结果 的 算法 。 学 
习 算 法 能 够 制作 其 他 算法 。 通 过 机 需 学 习 ， 计 算 机 就 会 目 己 编写 程序 ， 
就 用 不 到 我 们 了 。 


哇 ! 

计算 机 会 自己 编写 程序 。 现 在 看 来 这 是 一 个 强大 的 想法 ， 甚 至 可 能 
有 点 吓人 。 如 果 计 算 机 开始 自己 编程 ， 那 么 我 们 将 如 何 控制 它们 ?我们 
会 看 到 ， 人 类 可 以 很 好 地 控制 它们 。 可 能 会 有 人 当即 反对 ， 这 听 起 来 太 
美好 了 ， 不 像 真 的 。 当 然 ， 编 写 算法 需要 智力 、 创 造 力 、 问 题解 决 能 
力 ， 这 些 都 是 计算 机 没有 的 。 如 何 把 机 器 学 习 与 魔法 区 分 开 来 ” 的确， 
今天 为 止 ， 人 们 能 编写 许多 计算 机 无 法 学 习 的 程序 。 可 令 人 更 为 惊讶 的 
是 ， 计 算 机 却 能 学 习 人 们 无 法 编写 出 来 的 程序 。 我 们 会 开车 、 会 辨认 字 
迹 ， 但 这 些 技能 都 是 潜意识 发 挥 出 来 的 ， 无 法 向 计算 机 解释 这 些 事情 是 
如 何 完成 的 。 但 是 ， 如 采 我 们 把 关于 这 些 事情 的 足够 多 的 例子 交 给 学 习 
算法 ， 该 算法 会 很 乐意 开明 白 怎样 独立 完成 这 些 事情 ， 这 时 我 们 就 可 以 
放手 让 算法 去 做 了 。 邮 局 正 是 通过 这 种 方法 来 识别 邮政 编码 ， 自 动 驾 驶 
汽车 也 是 这 样 才 得 以 实现 在 路 上 跑 。 


解释 机 器 学 习 的 力量 的 最 好 方法 ， 也 许 束 古 将 其 与 其 他 低 技术 含量 
的 活动 进行 类 比 。 工 业 社 会 ， 商 品 由 工厂 制造 ， 这 也 意味 着 工程 师 必须 
弄 明 白 商 品 如 何 通过 零件 组 装 起 来 、 这 些 零件 如 何 生产 等 ， 细 到 生产 原 
料 。 这 是 一 项 大 工程 。 计 算 机 是 人 类 发 明 的 最 复杂 的 产品 ， 计 算 机 设 
计 、 工 厂 生产、 程序 运行 都 涉及 大 量 的 工作 。 还 有 男 外 一 种 方法 能 让 我 
们 得 到 一 些 想 要 的 东西 : 让 上 自然 规律 去 塑造 它们 。 在 农业 当中 ， 我 们 播 


种 ， 确 保 种 子 有 足够 的 水 分 和 营养， 然后 收割 成 熟 的 作物 。 为 什么 技术 
不 能 这 样 ? 完全 可 以 ， 而 这 也 是 机 器 学 习 的 承诺 。 学 习 算 法 是 种 了 于， 数 
据 和 是 土壤 ， 补 掌握 的 程序 是 成 熟 的 作物 。 机 需 学 习 专 家 惑 像 农民 ， 播 下 
种 子 ， 汶 度 ， 施 肥 ， 留 意 作 物 的 生长 状况 ， 事 事 杀 力 杀 为 ， 而 不 是 退 居 
一 劳 。 


一 旦 我 们 这 样 看 待机 器 学 习 ， 随 即 也 会 发 生 两 件 事 : 


第 一 ， 我 们 掌握 的 数据 越 多 ， 我 们 能 学 的 也 越 多 。 没 有 数据 ? 什么 
也 学 不 到 。 大 数据 ? 很 多 东西 可 以 学 习 。 这 也 是 机 融 学 习 无 处 不 在 的 原 
因 ， 因 为 有 飞速 增长 的 数据 。 如 果 你 在 超市 购买 机 噩 学习， 其 包 逆 上 可 
能 会 写 者 “只 需 谎 加 数据 ?。 


第 二 ， 机 器 学 习 是 一 把 剑 ， 利 用 这 把 剑 可 以 杀 死 复 杀 性 怪兽 。 只 要 
有 足够 的 数据 ， 一 段 只 有 几 百 行 代码 的 程序 可 以 轻易 生成 拥有 上 百 万 行 
代码 的 程序 ， 而 且 它 可 以 为 解决 不 同 问 题 不 停产 生 不 同 的 程序 。 这 可 以 
显著 降低 程序 员工 作 的 复杂 度 。 当 然 ， 就 像 对 付 九 头 蛇 ， 我 们 人 砍 掉 它 的 
头 ， 会 立即 长 出 新 头 ， 但 长 出 的 头 会 变 小 ， 而 且 头 的 生长 也 需要 时 间 ， 
因此 我 们 仍 有 可 能 胜出 。 


我 们 可 以 把 机 器 学 习 当 作 逆 运算 ， 正 如 开平 方 是 平方 的 逆 运 算 、 整 
合 是 分 化 的 逆 运 算 。 正 如 我 们 会 问 “什么 数 的 平方 是 16”， 或 者 “导数 为 
x+1 的 函数 是 什么 ”， 我 们 也 会 问 “ 什 么 算法 会 得 出 该 结果 ”。 我 们 很 快 会 
看 到 ， 怎 样 将 这 个 观点 运用 到 具体 的 学 习 算法 中 。 


有 些 学 习 算 法 学 习 知识 ， 有 的 则 学 习 技 能 。“ 所 有 人 都 会 死 * 古 知 
识 ， 骑 单车 是 技能 。 在 机 器 学 习 中 ， 知 识 往往 以 统计 模型 的 形式 出 现 ， 
因为 多 数 知 识 都 是 可 以 统计 的 ， 所 有 人 部 会 死 ， 但 只 有 4% 古 美国 人 。 
技能 往往 以 程序 的 形式 出 现 ， 如 宁 马 路 同 左 弯曲 ， 那 么 同 天 转动 车 头 ; 
如 果 一 只 鹿 跳 到 你 面前 ， 那 么 立刻 判 车 “很 遗憾 ， 在 写 这 本 书 时 ， 谷 歌 
的 目 动 驾驶 汽车 仍 会 把 被 风 吹 起 的 塑料 袋 和 鹿 弄 混 ) 。 通 常 ， 这 些 程序 


都 很 简单 ， 复 杂 的 是 它们 的 核心 知识 。 如 果 你 能 判断 哪些 邮件 是 垃圾 邮 
件 ， 那 么 你 也 就 能 判断 该 删除 哪些 邮件 。 如 果 你 能 在 象棋 游戏 中 判断 这 
盘 棋 上 自己 的 优势 在 哪里 ， 那 么 你 也 惑 懂得 该 怎么 走 〈 能 让 你 处 于 最 有 利 
地 位 的 一 步 ) 。 


机 器 学 习 有 许多 不 同 的 形式 ， 也 会 涉及 许多 不 同 的 名 字 : 模式 识 
别 、 统 计 建 模 、 数 据 挖掘 、 知 识 发 现 、 预 测 分 析 、 数 据 科 学 、 适 应 系 
统 、 目 组 织 系 统 等 。 这 些 概念 供 不 同 群体 使 用 ， 拥 有 不 同 的 联系 。 有 些 
有 很 长 的 半衰期 ， 有 些 则 较 短 。 在 本 书 中 ， 我 用 “机 需 学 习 "一 词 泛 指 所 
有 这 些 概念 。 


机 器 学 习 有 时 会 和 人 工 智能 (AI) 混淆。 严格 来 讲 ， 机 器 学 习 是 人 
工 智能 的 子 域 ， 但 机 器 学 习 发 展 得 如 此 壮大 且 成 功 ， 现 已 超越 以 前 它 引 
以 为 傲 的 母 领域 。 人 工 智能 的 目标 是 教会 计算 机 完成 现在 人 类 做 得 更 好 
的 事 ， 而 机 器 学 习 可 以 说 就 是 其 中 最 重要 的 事 : 没有 学 习 ， 计 算 机 就 水 
远 无 法 跟 上 人 类 的 步伐 ， 有 了 学 习 ， 一 切 都 与 时 俱 进 。 


在 信息 处 理 这 个 生态 系统 中 ， 学 习 算 法 是 项 级 拒食 者 。 数 据 库 、 网 
络 爬 虫 、 索 引 右 等 相当 于 食 章 动物 ， 耐 心地 对 无 限 领域 中 的 数据 进行 答 
食 。 统 计算 法 、 线 上 分 析 处 理 等 则 相当 于 食肉 动物 。 食 草 动物 有 必要 存 
在 ， 因 为 没有 它们 ， 其 他 动物 无 法 存活 ， 但 顶级 扔 食 者 有 更 为 刺激 的 生 
活 。 数 据 爬 虫 就 像 一 头 牛 ， 网 页 相当 于 它 的 草原 ， 每 个 网 页 就 是 一 根 
草 。 当 网 络 爬 虫 进行 破坏 行动 时 ， 网 站 的 副本 就 会 保存 在 其 硬盘 当中 。 
索引 需 接 着 做 一 个 页 面 的 列表 ， 每 个 词 都 会 出 现在 页 面 当中 ， 这 很 像 一 
本 书后 的 索引 。 数 据 库 就 像 大 象 ， 又 大 双重 ， 永 远 不 会 被 忽略 。 在 这 些 
动物 当中 ， 耐 心 的 野兽 飞快 运转 统计 和 分 析 算 法 ， 压 缩 并 进行 选择 ， 将 
数据 变 为 信息 。 学 习 算 法 将 这 些 信息 否 下 、 消 化 ， 然 后 将 其 变 成 知识 。 

机 需 学 习 专 家 在 计算 机 科学 家 中 就 是 一 种 精英 式 的 “神职 "。 许 多 计 
算 机 科学 家 ， 尤 其 是 更 老 的 那 一 代 ， 并 不 如 他 们 想 的 那样 能 很 好 地 理解 
机 器 学 习 。 这 是 因为 ， 计 算 机 科学 通常 需要 的 是 准确 思维 ， 但 机 器 学 习 


需要 的 是 统计 思维 。 例 如 ， 如 果 有 条 规定 是 “垃圾 邮件 标记 的 正确 率 是 
9996"， 这 并 不 意味 存在 缺陷 ， 而 可 能 意味 这 是 你 的 最 好 水 平 ， 已 经 委 

好 用 了 。 这 种 思维 上 的 差别 很 大 程度 上 也 解释 了 为 什么 微软 能 赶 上 网 景 
公司 ， 但 想 赶 上 谷歌 却 困难 得 多 。 说 到 底 ， 浏 览 器 只 是 一 个 标准 的 软 

件 ， 而 搜索 引擎 则 需要 不 同 的 思维 模式 。 


之 所 以 说 机 器 学 习 研 究 者 是 超级 计算 机 迷 的 另外 一 个 原因 ， 就 是 当 
今世 界 急需 他 们 ， 但 他 们 寥寥 无 几 。 按 照 计 算 机 科学 严格 的 标准 ， 这 样 
的 人 数量 就 更 少 了 。 带 姆 : 奥 汪 利 认为 ,，“ 数 据 科 学 家 ”是 硅谷 最 热门 的 
职业 。 根 据 麦 肯 锡 全 球 研究 院 估 计 ， 截 至 2018 年 ， 仅 美国 就 需要 再 培养 
14 万 ~19 万 机 器 学 习 专 家 才 够 用 ， 另 外 还 需要 150 万 有 数据 头脑 的 经 理 。 
机 絮 学 习 的 应 用 爆发 得 如 此 突然 ， 连 教育 都 无 法 跟 上 其 步伐 ， 同时， 人 
才 奇 缺 也 古 因为 这 门 学 科 在 人 们 看 来 很 难 而 令 人 望 而 生 苦 。 教 科 书 很 可 
能 会 让 你 感到 数学 很 难 ， 然 而 ， 这 个 困难 表面 看 起 来 很 大 ， 其 实 并 不 
征 。 机 器 学 习 所 有 的 重要 观点 可 以 不 用 通过 数学 表示 出 来 。 当 你 读 这 本 
书 时 ， 甚 至 可 能 会 发 现 ， 你 发 明了 目 己 的 学 习 算法 ， 而 且 看 不 到 一 个 方 
程式 的 影子 。 


工业 音 命 使 手工 业 上 自动 化 ， 信 息 单 命 解 放 了 脑力 开动 ， 而 机 器 学 习 
则 使 自动 化 本 吴 上 自动 化 。 没 有 机 器 学 习 ， 程 序 员 会 成 为 阻挠 进步 的 障 
碍 。 有 了 机 器 学 习 ， 进 步 的 步伐 就 会 加 快 。 如 果 你 是 一 个 懒惰 又 不 那么 
聪明 的 计算 机 科学 家 ， 机 器 学 习 束 是 理想 的 职业 ， 因 为 学 习 算法 会 完成 
所 有 事情 ， 功 劳 却 是 你 的 。 从 男 一 方面 讲 ， 和 学 习 算 法 会 让 我 们 失业 ， 这 
也 只 是 我 们 应 受 的 惩罚 。 


将 自动 化 带 入 新 的 高 度 ， 机 器 学 习 单 命 会 带 来 广泛 的 经 济 及 社会 变 
革 ， 正 如 互联 网 、 个 人 计算 机 、 汽 车 以 及 花 汽 机 在 当时 对 社会 和 经 济 的 
影响 那样 。 这 些 变 革 已 经 明显 存在 的 领域 就 是 商业 。 


为 何 丙 业 拥 扩 机 各 学 习 


为 什么 谷歌 比 雅虎 要 有 价值 得 多 ? 它们 都 是 用 户 登 录 最 多 的 网 站 ， 
都 靠 在 网 页 上 登 广 告 赚钱 。 它 们 都 用 拍卖 的 方式 销售 广告 ， 用 机 器 学 习 
来 预测 用 尸 点 击 东 广 告 的 概率 〈 概 率 越 大 ， 广 告 价值 越 大 ) ， 但 谷歌 的 
机 器 学 习 就 比 雅 虎 要 好 很 多 。 这 不 是 它们 市 场 价值 差异 巨大 的 唯一 原 
因 ， 却 是 主要 原因 。 如 果 疫 有 达到 预 汕 的 点 击 量 ， 对 广告 商 来 说 台 是 肖 
费 机 会 ， 对 网 站 来 说 是 收 荔 损失 。 人 谷歌 每 年 的 收入 是 500 亿 美元 ， 预 测 
扩 击 紊 每 上 升 1%， 束 可 能 意味 看 每 年 为 公司 带 来 额外 5 亿美 元 的 收入 。 
难怪 谷歌 是 机 器 学 习 的 铁杆 粉丝 ， 雅 虎 和 其 他 公司 也 在 奋起 直 追 。 


网 络 营销 仅仅 是 巨大 变革 中 的 一 种 表现 形式 。 无 论 什 么 市 场 ， 生 产 
商 和 用 户 在 交易 发 生 之 前 ， 都 需要 进行 联系 。 在 互联 网 出 现 之 前 ， 区 易 
的 主要 障碍 束 是 实地 交易 。 你 只 能 从 当地 的 书店 购买 书籍 ， 而 当地 书店 
的 书架 空间 又 有 限 。 但 当 你 可 以 随时 把 所 有 书 下 载 到 电子 阅读 器 时 ， 问 
题 就 变 成 了 可 供 选 择 的 书 太 多 。 你 怎么 浏览 书店 里 上 百 万 不 同名 字 的 
书 ? 同样 的 问题 也 出 现在 其 他 信息 产品 当中 : 视频 、 音 乐 、 新 闻 、 推 等 
文章 、 博 客 、 网 页 。 这 个 问题 还 会 出 现在 能 够 远程 购买 的 产品 和 服务 当 
中 : 鞋子 、 鲜 花 、 小 配件 、 酒 店 房 间 、 辅 导 、 投 资 。 人 们 在 找 工作 或 挑 
日 子 时 ， 也 会 遇 到 选择 过 多 的 问题 。 你 们 如 何 找到 役 此 ? 这 是 信息 时 代 
的 定义 问题 ， 而 机 器 学 习 就 是 问题 解决 方案 的 主要 部 分 。 


当 公 司 不 断 发 展 壮 大 后 ， 它 会 经 历 三 个 阶段 : 


第 一 阶段 的 所 有 事 部 由 人 工 完成 一 一 夫妻 店 的 店主 亲自 了 解 其 顾 
客 ， 他 们 依照 顾客 类 型 订购 、 展 示 、 推 荐 产品 。 这 很 不 错 ， 但 规模 不 
大 


第 二 阶段 是 最 笠 百 的 时 期 ， 公 司 变 得 越 来 越 大 ， 需 要 用 到 计算 机 。 
公司 招来 程序 员 、 顾 问 ， 买 来 数据 库 管理 费 ， 程 序 员 编写 了 成 百 万 行 的 


代码 来 使 公司 所 有 能 目 动 化 的 功能 自动 化 。 更 多 的 人 至 受 到 服务 ， 但 也 
有 麻烦 : 决定 是 在 粗略 的 人 口 统计 类 别 的 基础 上 做 出 来 的 ， 计 算 机 程序 
也 过 于 死板 ， 无 法 与 人 类 无 限 的 才能 相 匹 配 。 


经 过 一 段 时 间 进入 第 三 阶段 ， 没 有 足够 的 程序 员 和 顾问 满足 公司 的 
需要 ， 因 此 公司 不 可 避免 地 向 机 器 学 习 寻 求 帮助 。 亚 马 进 无 法 通过 计算 
机 程序 将 所 有 用 户 的 辟 好 熟练 地 进行 编码 ， 脸 书 也 不 知道 如 何 编写 这 样 
的 程序 ， 能 选择 最 好 的 更 新 内 容 展示 给 每 位 用 户 。 沃 尔 玛 每 天 销售 百 万 
件 商品 ， 还 要 做 数 十 亿 个 选择 。 如 果 沃 尔 玛 的 程序 员 努 力 编写 出 能 够 做 
所 有 选择 的 程序 ， 这 些 选 择 就 不 用 人 来 做 了 。 相 反 ， 这 些 公司 所 做 的 工 
作 是 ， 它 们 在 收集 到 如 山 的 数据 后 ， 让 学 习 算 法 尽情 学 习 ， 然 后 预测 顾 
客 想 要 什么 产品 。 


学 习 算 法 就 是 “媒人 ”: 它们 让 生产 丙 和 顾客 找到 对 方 ， 死 服 信息 过 
载 。 如 果 这 些 算法 足够 智能 ， 你 就 能 取得 两 全 其 类 的 结果 : 从 宏观 来 
讲 ， 选 择 广 、 成 本 低 ; 从 微观 来 讲 ， 能 够 了 解 顾 客 的 个 性 化 需求 。 学 习 
算法 并 不 是 完美 的 ， 决 定 的 最 后 一 步 通 常 还 得 由 人 来 做 ， 但 学 习 算 法 很 
智能 ， 为 人 们 减少 了 需要 做 的 选择 。 


回顾 过 去 ， 我 们 看 到 ， 从 计算 机 到 互联 网 再 到 机 器 学 习 的 进步 是 必 
然 的 : 计算 机 使 互联 网 成 为 可 能 ， 这 个 过 程 产生 大 量 数据 以 及 无 限 选 择 
这 个 问题 。 单 早 互 联网 还 不 足以 把 “一 个 尺寸 满足 所 有 ”的 需求 转 问 退 求 
无 限 多 样 化 的 长 尾 效应 。 网 飞 公 司 的 库存 里 可 能 有 10 万 种 不 同名 字 的 
DVD 《数字 多 功能 光盘 ) ， 但 如 果 顾 客 不 懂得 如 何 找到 目 己 辟 欢 的 ， 他 
们 就 会 默认 选择 最 流行 的 DVD。 只 有 网 飞 公 司 有 了 学 习 算 法 之 后 ， 才 能 
帮助 它 了 解 顾客 的 喜好 ， 并 推荐 DVD， 长 尾 效应 也 才 得 以 真正 实现 。 


一 旦 必然 的 事情 发 生 ， 机 器 学 习 成 为 媒介 ， 那 么 其 力量 也 开始 慢 慢 
只 聚 。 谷 歌 的 算法 很 大 程度 上 决定 你 会 找到 什么 信息 ， 亚 马 进 决 定 你 会 
买 到 什么 产品 ， 全 球 最 大 的 婚恋 网 站 默契 网 (Match.com) 决定 你 的 约 
会 对 象 是 谁 。 最 好 的 选择 权 仍 在 你 手 里 一 一 从 算法 给 你 展示 的 所 有 选项 


中 挑选 ， 但 99.9% 的 选择 由 算法 做 出 。 当 下 ， 一 家 公司 的 成 败 取决 于 学 
习 算 法 对 其 产品 的 有 蝇 爱 程度 ， 而 整个 经 济 体 的 成 功 一 一 是 否 每 个 人 都 能 
得 到 目 己 需要 的 物美 价 廉 的 产品 ， 则 取决 于 学 习 算 法 的 好 用 程度 。 


公司 确保 学 习 算 法 喜爱 其 产品 的 最 佳 方法 就 是 ， 让 公司 自己 运行 算 
法 。 谁 有 最 佳 算法 、 数 据 最 多 ， 谁 束 能 太 。 新 型 网 络 效应 占据 上 风 : 谁 
有 最 多 的 用 户 ， 谁 束 能 积累 最 多 的 数据 ， 谁 有 最 多 的 数据 ， 谁 就 能 学 到 
最 好 的 模型 ， 谁 学 到 最 好 的 模型 ， 谁 就 能 吸引 最 多 的 用 户 ， 这 是 一 种 民 
性 循环 〈 如 果 你 在 竞争 ， 就 会 变 成 恶性 循环 ) 。 把 搜索 引擎 从 谷歌 转换 
到 必 应 ， 可 能 会 比 把 应 用 系统 从 Windows 切 换 到 Mac 要 简单 ， 但 在 实际 
操作 中 ， 你 不 会 这 么 做 ， 因 为 谷歌 拥有 领先 优势 及 更 大 的 市 场 份额 ， 比 
必 应 更 懂得 你 想 要 什么 ， 虽 然 必 应 的 技术 也 不 错 。 可 惜 的 是 ， 必 应 刚 进 
入 搜索 行业 ， 没 有 什么 数据 资源 ， 而 谷歌 却 拥 有 十 余年 的 机 器 学 习 经 
验 。 


你 可 能 会 认为 ， 过 一 段 时 间 ， 更 多 的 数据 结果 意味 者 更 多 的 重复 ， 
但 数据 的 饱和 点 还 未 出 现 ， 长 尾 效应 持续 起 作用 。 如 果 你 看 亚马逊 或 网 
及 公司 为 你 提供 的 推荐 产品 ， 很 明显 ， 这 些 推荐 项 仍 很 粗略 ， 而 谷歌 的 
搜索 结果 也 有 很 大 的 优化 空间 。 每 个 产品 的 特性 、 网 页 的 每 个 角落 都 有 
很 大 的 潜力 ， 能 通过 机 器 学 习 得 到 改善 。 网 页 底部 的 链接 应 该 是 红色 的 
还 是 蓝 色 的 ? 两 个 颜色 都 试 试 ， 看 看 哪个 闫 色 的 点 击 率 会 更 高 。 还 有 ， 
最 好 让 机 器 学 习 持续 运行 ， 不 断 调整 网 页 的 所 有 方面 。 


所 有 拥有 众多 选择 和 大 量 数据 的 市 场 都 会 发 生 这 样 的 动态 循环 。 比 
赛 正 在 进行 ， 谁 学 得 最 快 ， 谁 殉 必 了 。 随 独 越 来 越 好 地 了 解 用 户 需 求 ， 
这 个 比赛 不 会 停止 : 企业 可 以 将 机 器 学 习 应 用 到 企业 运作 的 每 个 方面 ， 
只 要 有 足够 的 数据 ， 只 要 数据 能 够 从 计算 机 、 通 信 设 备 以 及 更 廉价 、 更 
普 适 的 传感器 源源 不 断 地 输出 。 “数据 是 新 型 石油 ?是 目前 的 流行 次 法 ， 
既然 是 石油 ， 提 炼 石油 束 是 一 笔 大 生意 。 和 其 他 公司 一 样 ，IBM 己 制定 
经 济 增长 战略 ， 为 企业 提供 分 析 服 务 。 业 界 将 数据 看 作战 略 资产 :我 有 


什么 数据 ， 而 竞争 对 手 却 没有 ? 我 要 怎么 利用 这 些 数据 ? 苋 争 对 手 有 什 
么 数据 ， 而 我 却 没有 ? 


同样 的 道理 ， 没 有 数据 库 的 银行 无 法 和 有 数据 库 的 银行 竞争 ， 没 有 
机 器 学 习 的 企业 也 无 法 跟 上 使 用 机 器 学 习 的 企业 。 虽 然 第 一 家 公司 的 专 
家 写 了 上 千 条 规则 ， 预 调用 户 的 如 好， 但 是 第 二 家 公司 的 算法 却 能 学 习 
数 十 亿 条 规则 ， 一 整套 规则 都 可 用 于 每 位 用 户 。 这 就 相当 于 长 让 对 机 关 
枪 。 机 露 学 习 是 很 棒 的 新 撤 术 ， 但 这 并 不 是 商业 界 拥护 它 的 原因 一 一 人 
们 之 所 以 拥护 它 ， 是 因为 别 无 选择 。 


给 科学 方法 增 压 


机 器 学 习 是 “ 打 了 类 固 醇 ”的 科学 方法 ， 也 遵循 同样 的 过 程 : 产生 假 
设 、 验 证 、 放 莽 或 完善 。 科 学 家 可 能 会 花 颖 毕生 精力 来 提出 或 验证 几 百 
个 假设 ， 而 机 器 学 习 系 统 却 能 在 一 秒 钟 内 做 完 这 些 事 。 机 器 学 习 使 科学 
的 发 现 过 程 目 动 化 。 因 此 ， 并 不 奇怪 ， 这 既是 商业 领域 的 革命 ， 也 是 科 
学 领域 的 音 命 。 


为 了 取得 进步 ， 科 学 的 每 个 领域 都 需要 足够 的 数据 ， 以 与 其 研究 现 
象 的 复杂 性 相对 应 。 这 是 物理 成 为 第 一 个 腾飞 学 科 的 原因 : 第 谷 . 布 拉 
赫 对 星球 位 置 的 记录 ， 以 及 伽利略 对 钟 摆 摆 动 、 斜 面 的 观察 ， 已 经 足以 
推导 出 牛顿 定律 。 这 也 是 为 什么 虽然 分 子 生 物 学 这 个 学 科比 神经 科学 年 
轻 ， 但 是 已 超越 神经 科学 : DNA《〈 脱 氧 核糖 核酸 ) 微 阵列 以 及 高 通 量 训 
序 技术 提供 了 大 量 的 数据 ， 而 神经 科学 家 对 此 只 能 可 望 而 不 可 即 。 这 也 
古 为 什么 社会 科学 研究 是 一 场 艰 震 早 绝 的 斗争 : 你 拥有 的 只 是 100 人 的 
样本 和 每 个 人 的 十 几 个 测量 值 ， 你 能 模拟 的 也 只 是 茶 个 规模 很 有 限 的 现 
象 ， 甚 至 这 个 现象 可 能 不 是 孤立 存在 的 ， 还 受到 其 他 现象 的 影响 ， 这 束 
意味 你 仍然 没有 彻 压 了 解 它 。 


有 个 好 消 轧 ， 那 就 是 之 前 缺乏 数据 的 学 科 现 在 拥有 很 多 数据 。 用 不 
痢 让 50 名 睡 眼 慢 愉 的 本 科 生 到 实验 室 完 成 任务 并 付 给 他 们 报酬 ， 心 理学 
家 通过 在 亚马逊 “土耳其 机 器 人 ”上 发 布 实 验 任务 ， 就 可 以 找到 满足 他 
们 数量 要 求 的 实验 对 象 〈 这 个 网 站 对 更 多 样 化 的 样本 也 有 帮助 ) 。 虽 然 
回想 起 来 越 来 越 困 难 ， 但 也 只 是 10 年 前 ， 研 究 社区 网 络 的 社会 学 家 哀叹 
说 ， 他 们 无 法 得 到 成 员 超过 几 百 人 的 社交 网 络 。 现 在 有 了 上 脸 书 ， 有 超过 
10 亿 用 户 。 大 部 分 用 户 会 发 布 有 关 他 们 生活 的 很 多 细节 ， 就 像 地 球 社 会 
生活 的 实时 直播 。 在 神经 科学 领域 ， 神 经 连接 组 学 和 功能 性 磁 共 振 成 像 
让 人 们 对 大 脑 有 了 十 分 详细 的 了 解 。 在 分 子 生物 学 领域 ， 基 因 和 蛋白质 
的 数据 库 数 量 以 指数 级 速度 增长 。 甚 至 更 为 “年 长 ”的 学 科 ， 如 物理 学 和 
解 剂 学 也 在 不 断 进 步 ， 因 为 粒子 加 速 问 和 数字 巡天 领域 的 数据 在 源源 不 
肠 输 出 。 


如 果 你 不 将 大 数据 变 成 知识 ， 它 将 蝇 无 用 处 ， 可 征 世 界 上 没有 那么 
多 科学 家 来 完成 这 件 事 。 埃 德 温 : 哈 动 通过 钻研 照相 确 片 发 现 新 的 星 
系 ， 但 史 隆 数字 巡天 计划 中 ， 多 达 5 亿 的 天 体 肯 定 不 是 这 样 被 辨认 出 来 
的 。 这 就 像 在 沙滩 上 用 手 来 数 沙 粒 的 数目 。 你 可 以 记录 规则 ， 把 星系 从 
星星 及 干扰 物 〈 如 马 、 尺 机 、 超 人) 区 分 开 来 ， 但 得 出 的 星系 并 不 是 那 
么 准确 。 相 比 之 下 ， 天 体 图 像 目录 编辑 和 分 析 工 具 (SKICAT) 项 目 使 
用 了 学 习 算 法 。 底 片 包括 标记 了 正确 类 别 的 天 体 ， 从 这 些 拆 片 出 及， 学 
习 算 法 可 以 明日 每 个 分 类 的 特点 ， 并 将 其 应 用 到 没有 标记 的 底片 当中 。 
甚至 更 理想 的 是 ， 学 习 算 法 能 够 将 那些 对 人 类 来 说 难以 标记 的 天 体 进行 
分 类 ， 这 些 天 体 正 是 该 项 调查 计划 的 主要 内 容 。 


有 了 大 数据 和 机 器 学 习 ， 你 就 能 弄 明白 比 之 前 复杂 很 多 的 现象 。 在 
多 数 领域 ， 科 学 家 一 般 只 使 用 种 类 很 有 限 的 模型 ， 例 如 线性 回归 模型 ， 
在 这 个 模型 当中 ， 你 用 来 适应 数据 的 曲线 总 是 一 条 和 直线。 遗憾 的 是 ， 世 
界 上 的 大 多 数 现象 都 是 非 线 性 的 《或 者 说 这 也 是 一 件 幸 事 ， 如 果 是 线性 
的 ， 生 活 会 变 得 非常 乏味 。 实 际 上 ， 那 样 就 不 会 存在 生命 了 ) 。 机 器 学 
习 打 开 了 广阔 、 全 新 的 非 线 性 模型 世界 。 这 束 好 比 在 只 有 几 诗 月 光照 册 


的 房间 ， 打 开 了 明 腕 的 灯 。 


在 生物 学 领域 ， 学 习 算 法 的 研究 成 果 包 括 : DNA 分 子 中 基因 的 位 
置 ; 在 集 日 质 合成 前 ， 多 余 的 核糖 核酸 在 哪里 进行 纹 接 ; 和 集 晶 质 如 何 折 
登 成 各 目的 特有 形状 ; 不 同 条 件 如 何 对 基因 的 表达 造成 影响 。 用 不 着 在 
实验 室 对 新 药 进行 测试 ， 机 器 学 习 束 可 以 预测 这 些 药物 是 否 有 效 ， 只 有 
最 有 效 的 药品 才 会 受到 测试 。 学 习 算 法 还 会 剔除 那些 可 能 产生 严重 副 作 
用 《甚至 导致 癌症 ) 的 药物 ， 备 选 药物 无 须 在 经 过 人 体 试验 被 证 明 无 效 
后 才 被 茶 止 使 用 ， 从 而 避免 了 代价 昂贵 的 失败 。 


然而 ， 最 大 的 挑战 就 是 将 所 有 这 些 数据 组 合成 一 个 整体 。 导 致 你 患 
心脏 病 的 因素 有 哪些 ? 这些 因 系 如 何 相互 影响 ? 牛顿 需要 的 只 是 三 个 运 
动 定律 和 一 个 万 有 引力 定律 ， 但 一 个 细胞 、 一 个 有 机 体 、 一 个 社会 的 完 
整 模型 却 无 法 由 一 个 人 来 发 现 。 虽 然 随 着 知识 的 增长 ， 科 学 家 的 分 工 变 
得 越 来 越 细 ， 但 是 没有 人 能 够 将 所 有 知识 整合 到 一 起 ， 因 为 知识 太 多 
了 。 虽 然 科学 家 们 会 合作 ， 但 语言 是 传播 速度 非常 缓慢 的 介质 。 虽 然 科 
学 家 们 想 努 力 妃 上 别人 的 研究 ， 但 出 版 物 的 数量 如 此 之 多 ， 他 们 的 距离 
被 拉 得 越 来 越 远 。 通 各 是， 重 做 一 项 实验 比 找 到 该 实验 的 报告 还 要 容 
易 。 机 器 学 习 在 这 时 就 会 起 作用 ， 它 能 根据 相关 信息 搜索 文献 ， 将 某 领 
域 的 行 话 翻 译 到 为 一 个 领域 ， 并 建立 联系 ， 而 科学 家 们 在 过 去 痢 没 有 意 
识 到 。 渐 渐 地 ， 机 器 学 习 成 为 一 个 巨大 的 中 心 ， 通 过 这 个 中 心 ， 东 领域 
里 及 明 的 建 模 技术 将 会 被 引入 其 他 领域 。 


如 果 计 算 机 没有 被 发 明 出 来 ，20 世 纪 下 半 叶 的 科学 将 停滞 不 前 。 这 
可 能 不 会 很 快 在 科学 家 当中 表现 出 来 ， 因 为 他 们 专注 于 所 有 仍 可 努力 实 
现 、 有 限 的 进步 ， 但 进步 的 空间 真 的 太 小 了 。 同 样 ， 如 果 没 有 机 器 学 
习 ， 许 多 科学 在 未 来 10 年 将 会 面临 收益 递减 。 


为 了 预见 科学 的 未 来 ， 看 看 曼彻斯特 大 学 生物 技术 研究 院 的 实验 
室 ， 在 那里 ， 一 个 名 叫 亚 当 的 机 器 人 正在 努力 工作 ， 目 的 是 找到 哪些 基 
因 在 酵母 中 对 哪些 酶 进行 编码 。 亚 当 有 一 个 酵母 新 陈 代谢 的 模型 ， 还 掌 


握 了 基本 的 基因 及 梨 白 质 知 识 。 它 提出 假设 ,设计 实 验 验 证 假设 ， 进 行 
实地 实验 ， 分 析 结 果 ， 提 出 新 的 假设 ， 下 到 它 满意 为 止 。 当 下 ， 人 类 科 
学 家 仍然 在 独立 检查 亚当 的 结果 ， 然 后 才 会 相信 这 些 结果 ， 但 在 未 来 ， 
他 们 就 会 交 给 机 器 人 科学 家 来 验证 彼此 的 假设 。 


10 亿 个 比尔 :克林顿 


在 2012 年 的 美国 总 统 选 举 中 ， 机 器 学 习 决 定 了 谁 能 当 上 总 统 。 通 当 
决定 总 统 选举 的 因素 包括 经 济 、 候 选 人 的 杀 民 上 度 等 ， 但 这 些 因素 没有 起 
到 作用 ， 而 选举 的 结果 主要 受到 几 个 “摇摆 州 ?的 影响 。 米 特 : 罗 姆 尼 的 
竞选 采用 的 是 传统 的 投票 策略 ， 将 选民 分 成 几 大 类 ， 然 后 选择 是 否 把 每 
个 类 别 作为 目标 。 尼 和 尔 : 纽 豪 斯 〈 罗 姆 尼 的 民意 调查 专家 ) 说 道 :“ 如 果 
我 们 能 在 俄亥俄 州 赢得 无 党 派 人 士 ， 那 么 这 场 竞 赛 我 们 就 赢 了 。?” 虽 然 
多 姆 尼 获 得 了 79% 无 党 派 人 士 的 文 持 ， 但 他 仍 失去 了 这 个 州 ， 在 竞选 中 
失利 。 


相 比 之 下 ， 奥 巴 马 总 统 雇用 了 拉 伊 德 : 负 尼 《〈 机 器 学 习 专家 ， 他 是 
奥巴马 竞选 中 的 首席 科学 家 ) 。 贡 尼 研 究 的 是 如 何 整合 最 伟大 的 分 析 运 
算 ， 并 将 其 应 用 到 政治 史 中 。 他 们 将 所 有 选民 的 信息 整合 成 单个 数据 
库 ， 然 后 将 该 数据 库 和 他 们 能 在 社交 了 网络、 市 场 营 销 等 领域 找到 的 资源 
结合 起 来 。 之 后 者 手 对 每 个 选民 做 四 种 预测 : 〈1) 文 持 奥 巴 马 的 可 能 
性 有 多 大 ; (2) 会 不 会 参加 民意 调查 ;，〈3) 会 不 会 回应 竞选 宜 传 并 照 
做 ; (4) 对 特定 问题 进行 对 话 之 后 ， 他 们 会 不 会 改变 选举 决定 。 基 于 
这 些 选民 的 例子 ， 奥 巴 马 团队 每 个 晚上 进行 66 000 场 选举 模拟 ， 并 用 这 
些 结果 指导 奥巴马 竞选 的 志愿 者 大 苗 : 该 给 谁 打 电 话 ， 该 拜访 谁 ， 该 说 
{Ps 


在 政界 、 商 界 以 及 战争 中 ， 最 糟糕 的 事情 砚 过 于 ， 你 不 明白 对 手 的 


行动 ， 而 知道 该 怎么 做 时 ， 为 时 已 晚 。 这 束 是 发 生 在 罗 姆 尼 苋 选中 的 事 
情 ， 他 们 能 看 到 对 手 的 团队 在 特定 镇 的 特定 电台 人 花 钱 做 宣传 ， 却 不 知道 
这 是 为 什么 ， 他 们 能 预测 的 实在 太 少 。 最 后 ， 奥 巴 马 除了 北 卡罗来纳 州 
以 外 ， 启 得 了 每 个 州 ， 而 且 与 最 可 靠 的 民意 调查 专家 的 预测 相 比 ， 他 赢 
得 了 更 多 。 反 过 来 ， 最 可 靠 的 民意 调查 专家 《例如 内 特 ' 希 尔 ) 使 用 的 
古 最 复杂 的 预测 技术 ， 预 测 结 果 却 没有 奥巴马 苋 选 团队 的 结果 准确 ， 因 
为 他 们 的 资源 比较 少 。 但 他 们 比 那些 所 谓 的 权威 人 士 要 准确 很 多 ， 因 为 
那些 人 的 预测 只 是 基于 他 们 上 自己 的 专业 知识 。 


也 许 你 会 认为 ，2012 年 的 美国 总 统 竞选 只 是 机 缘 巧 合 : 大 多 数 选举 
结果 并 不 那么 接近 ， 机 顺 学 习 无 法 成 为 决定 因素 。 但 未 来 机 器 学 习 会 让 
更 多 的 选举 结果 更 接近 。 在 政界 ， 正 如 在 所 有 领域 那样 ， 学 习 就 像 一 场 
猎手 腕 比赛 。 在 卡尔 :多 夫 《 前 直销 商 和 数据 挖掘 工程 师 ) 的 年 代 ， 共 
和 和 党 是 领先 的 。 到 了 2012 年 ， 共 和 和 党 开始 掉队 ， 但 现在 他 们 又 退 上 来 
了 。 我 们 不 知道 下 一 轮 选 举 谁 会 领先 ， 但 我 们 知道 两 个 党 小 为 了 记得 选 
举 都 很 努力 。 这 也 残 意味 着 ， 应 该 更 好 地 了 解 选民 ， 根 据 候选 人 的 情况 
进行 宣传 ， 其 至 根据 实际 情况 选择 候选 人 。 在 选举 期 间 以 及 每 轮 选举 之 
间 ， 这 适用 于 整个 党纲 ， 在 硬 数据 的 基础 上 ， 如 果 详 细 的 选民 模式 表明 
该 党 派 现在 的 纲领 是 失败 的 ， 那 么 该 党 派 就 应 改变 它 。 因 此 ， 把 主要 选 
举 活动 放 到 一 边 ， 民 意 调 查 中 候选 人 的 差距 会 变 得 越 来 越 小 ， 而 且 很 快 
会 消失 。 其 他 条 件 不 变 ， 拥 有 更 好 选民 模式 的 候选 人 会 必得 选举 ， 而 选 
民 也 会 因此 得 到 更 好 的 服务 。 


政治 家 最 伟大 的 才能 之 一 ， 束 是 能 够 了 解 其 选民 个 人 或 者 选民 团 
体 ， 然 后 直接 与 他 们 对 话 ， 比 尔 : 死 林 顿 束 是 其 中 的 一 个 典范 。 机 器 学 
习 的 作用 就 是 ， 让 每 位 选民 都 觉得 克林顿 对 答 他 们 羔 力 亲 为 、 非 常用 
心 。 尽 管 他 们 心目 中 的 这 些小 小 死 林 顿 与 真 的 区 林 顿 相 兰 太 远 了 ， 但 优 
势 在 于 “小 克林顿 * 的 数量 众多 ， 哪 怕 比 尔 : 殉 林 顿 根本 无 法 了 解 美国 的 
每 位 选民 是 怎么 想 的 (虽然 他 确实 想 知 道 ) 。 学 习 算 法 是 最 强大 的 政治 
家 推销 商 。 


当然 ， 就 像 企业 一 样 ， 政 治 家 能 把 机 器 学 习 和 掌握 的 信息 用 好 ， 也 可 
能 会 用 得 很 糟糕 。 例 如 ， 对 不 同 的 选民 ， 他 们 可 能 会 给 出 不 一 致 的 承 
诡 ， 但 选民 、 媒 体 、 监 督 组 织 也 会 目 己 进行 数据 挖掘 ， 并 揭露 做 得 太 过 
分 的 政治 家 。 竞 选 活动 不 仅仅 是 候选 人 之 间 的 较量 ， 还 涉及 民主 进程 中 
的 所 有 参与 者 。 


更 大 范围 的 结果 就 是 ， 民 主 会 更 好 地 得 到 实现 ， 因 为 选民 与 政治 家 
之 间 交 流 的 范围 会 飞速 扩大 。 在 当今 这 个 高 速 互联 网 时 代 ， 民 意 代表 从 
你 身上 获取 的 信息 数量 仍 像 19 世 纪 时 一 样 有 限 : 每 两 年 会 有 100 比 特 左 
右 的 信息 ， 数 量 正好 对 应 一 张 选票 。 这 些 信息 会 由 民意 信息 来 补充 ， 或 
许 偶 尔 还 会 有 电子 邮件 和 市 民 大 会 的 信息 ， 但 还 是 少 得 可 怜 。 大 数据 和 
机 器 学 习 正 改变 这 种 等 式 关 系 。 在 未 来 ， 只 要 选民 模式 准确 ， 当 选 官员 
就 可 以 每 天 询问 选民 上 干 次 想 要 什么 ， 然 后 根据 询问 结果 来 办 事 ， 不 用 
在 现实 中 纠缠 选民 。 


学 习 算 法 与 国家 安全 


在 网 络 空间 之 外 ， 学 习 算法 是 保护 国家 的 壁垒 。 每天， 国外 雍 击 者 
都 会 企图 闻 进 五 角 大 楼 、 国 防 承 包 商 以 及 其 他 公司 和 政府 机 构 的 计算 
机 。 他 们 的 计谋 不 断 变 化 ， 能 抵抗 昨天 认 击 的 方法 ,今天 束 已 经 不 演 用 
了 。 编 写 代 码 来 侦 碍 并 阻止 每 场 袭 击 ， 可 能 会 和 马 其 诡 防 线 一 样 有 效 ， 
五 角 大 楼 的 网 络 司令 部 十 分 了 解 这 一 点 。 但 如 果 有 是 臣 怖 分 子 的 第 一 次 袭 
击 ， 而 且 也 没有 之 前 的 例子 供 机 器 学 习 来 参考 ， 那 么 机 器 学 习 束 会 遇 到 
问题 。 学 习 算 法 会 构建 正常 行为 的 模型 〈 这 样 的 模型 数量 很 多 ) ， 标 出 
异常 行为 ， 然 后 召集 来 “骑兵 ”( 系 统管 理 员 ) 。 如 采 网 络 战争 发 生 ， 人 
类 就 是 总 指挥 ， 算 法 束 是 步兵 。 人 类 速度 太 慢 、 数 量 太 少 ， 很 快 整 会 被 
机 器 人 大 盏 歼灭 。 我 们 需要 自己 的 机 器 人 苗 队 ， 而 机 器 学 习 吏 像 机 井 人 


中 的 西点 军校 。 


网 络 战 争 是 不 对 称 战争 的 一 个 例子 ， 一 方 的 传统 车 事实 力 比 不 上 男 
一 方 ， 但 仍然 可 以 给 对 方 造成 严重 伤害 。 少 数 恐 怖 分 子 只 用 美工 刀 束 可 
以 播 到 双子 塔 ， 并 让 几 千 名 无 对 者 遇难 。 当 今 关 国安 全 最 大 的 威胁 就 是 
不 对 称 战 争 ， 而 且 抵 抗 历 有 威胁 的 有 效 武 器 吏 是 信息 。 如 果 收 人 黑 不 
了 ， 那 么 他 也 活 不 了 。 好 消息 就 是 我 们 有 大 量 信息 ， 但 也 有 坏 消 妃 。 


美国 国家 安全 局 已 经 对 数据 产生 无 限 大 的 胃口 ， 也 因此 声名 狼藉 。 
据 佑 计 ， 每 天 美国 国家 安全 局 饮 听 痢 全 球 10 亿 多 个 通话 ， 还 有 其 他 通 
信 。 但 是 ， 抛 开 隐 私 问题 ， 它 也 没有 让 上 百 万 员工 来 镭 听 这 些 通 话 、 丛 
看 邮件 ， 甚 至 也 不 会 记录 谁 和 谁 通话 。 绝 大 多 数 通 话 是 没有 嫌疑 的 ， 而 
专门 编写 程序 来 找 出 有 嫌疑 的 通话 义 很 困难 。 过 去 ， 美 国 国家 安全 局 利 
用 关键 词 配对 方法 ， 但 要 应 付 这 个 方法 也 很 容易 《例如 ， 把 爆炸 袭击 称 
作 “ 结 婚 ”， 把 炸弹 称 作 “结婚 蛋糕 ?) 。21 世 纪 ， 这 些 事 就 可 以 交 给 机 器 
学 习 。 保 密 是 安全 局 的 标志 ， 但 安全 局 局 长 已 经 同 美国 国会 证 明 ， 通 话 
记录 挖掘 已 经 阻止 了 几 十 起 私 怖 威胁 。 


恐怖 分 子 可 隐藏 在 足球 比赛 的 人 群 中 ， 但 学 习 算 法 能 辨认 他 们 的 相 
狐 。 仆 怖 分 子 可 以 在 国外 制造 焊 炸 事件 ， 但 学 习 算 法 能 找 出 他 们 。 学 习 
算法 还 可 以 做 更 加 精细 的 事情 : 将 机 器 人 与 事件 连接 起 来 ， 这 些 事件 单 
个 看 起 来 并 无 危害 ， 但 集中 起 来 可 能 就 预示 着 人 不祥。 这 种 方法 本 可 以 阻 
止 “9.11” 事 件 的 发 生 。 有 一 个 进一步 的 转折 : 一 旦 确定 的 程序 部 署 下 
来 ， 坏 人 可 能 会 改变 其 活动 ， 以 扰乱 该 程序 。 这 与 目 然 世界 不 同 ， 目 然 
世界 总 是 以 同样 的 方式 运转 。 要 解决 这 个 问题 ， 就 要 将 机 器 学 习 与 博 硬 
论 相 结合 ， 这 是 我 已 经 在 做 的 工作 : 别 只 想 着 打击 对 手 当 前 想 做 的 事 ， 
要 学 会 巧妙 地 回避 对 手 对 你 的 学 习 算法 的 损害 。 正 如 博弈 论 那 样 ， 把 各 
种 措施 的 成 本 和 利益 考虑 在 内 ， 这 也 有 助 于 找到 隐私 与 安全 之 间 的 平衡 
点 。 


不 列 颠 之 战 期 间 ， 英 国 空军 阻止 了 纳粹 德国 空军 的 进攻 ， 尺 管 后 者 


人 数 比 前 者 多 很 多 。 德 国 飞行 员 不 明白 ， 为 什么 无 论 走 到 哪里 ， 他 们 总 
会 碰 上 英国 空军 。 英 国有 一 个 秘密 武器 : 雷达 ， 可 以 在 德国 飞机 越境 进 
入 英国 领 裤 时 ， 就 探测 到 它们 。 机 器 学 习 就 像 装 了 雷达 ， 能 够 预知 未 
来 。 别 只 是 回击 对 手 的 行动 ， 要 预测 他 们 的 行动 ， 并 先发制人 。 


一 个 更 确切 的 例子 残 是 人 们 熟知 的 “预知 执法 ”。 通 过 预测 犯罪 倾 
癌 ， 战 略 性 地 将 巡逻 队 集中 在 最 可 能 需要 的 地 方 ， 同 时 采取 其 他 预防 措 
施 ， 这 样 一 座 城市 的 警力 就 能 有 效 地 完成 更 大 范围 的 工作 。 在 许多 方 
面 ， 执 法 过 程 就 像 不 对 称 战 争 ， 会 用 到 许多 相似 的 学 习 算 法 ， 无 论 是 在 
侦查 诈骗 、 揭 圳 犯罪 网 络 ， 还 是 普通 传统 的 打击 执法 中 。 


机 器 学 习 在 战争 中 也 将 扮演 越 来 越 重 要 的 角色 。 学 习 算 法 能 有 助 于 
驱散 战争 迷雾 ， 筛 选 侦察 图 像 ， 处 理 后 续 报 告 ， 并 整合 信息 ， 为 指挥 官 
提供 战争 形势 分 析 。 学 习 算 法 可 以 武装 军用 机 器 人 的 大 脑 ， 帮 助 其 保持 
方位 ， 适 应 地 形 ， 把 敌 机 和 民用 机 区 别 开 来 ， 以 及 进行 制导 。 美 国 国 防 
部 高 级 研究 计划 局 (DARPA) 的 领头 狗 (AlphaDog) 能 为 士兵 搬运 设 
备 。 遥 控 飞 机 在 学 习 算 法 的 作用 下 可 自主 飞行 。 虽 然 它 们 仍 受 到 人 类 飞 
行 员 的 部 分 控制 ， 但 未 来 的 趋势 是 一 个 飞行 员 监 控 越 来 越 多 的 遥控 飞机 
群 。 在 未 来 的 军队 里 ， 学 习 算 法 的 数量 会 大 大 超过 士兵 的 人 数 ， 这 将 减 
少许 多 士兵 的 伤亡 。 


我 们 将 走 同 何方 


科技 漳 流 奔涌 而 来 并 迅猛 问 前 。 机 器 学 习 不 同 寻 常 的 一 点 就 是 ， 在 
经 历 所 有 这 些 变 革 以 及 繁 采 和 破产 之 后 ， 它 开始 逐渐 强大 。 它 过 到 的 第 
一 个 大 的 打击 是 在 金融 领域 ， 预 测 股票 的 起 伏 波动 ， 起 于 20 世 纪 80 年 
代 。 接 下 来 的 一 流 是 挖掘 企业 数据 库 ， 在 20 世 纪 90 年 代 中 开始 发 展 壮 
大 ， 尤 其 是 在 直接 营销 、 客 户 关 系 浓 理 、 资 信 评 分 以 及 诈骗 侦查 等 领 


域 。 接 着 是 网 络 和 电子 商务 ， 在 这 些 领域 中 ， 自 动 个 性 化 很 快 流行 起 

来 。 当 互联 网 泡沫 和 暂时 肖 弱 这 种 趋势 时 ， 将 机 需 学 习 应 用 到 网 页 搜索 和 
广告 投放 的 做 法 开始 腾飞 起 来 。 不 演 上 怎样 ，“9.11” 钨 怖 击 后 机 器 学 习 
被 应 用 到 打击 勾 怖 主义 的 战争 中 。 网 络 2.0 带 来 一 连 串 的 新 应 用 ， 包 括 

安 据 社交 网 络 、 搜 索 哪些 博客 谈 到 你 的 产品 。 同 时 ， 各 个 领域 的 科学 家 
也 逐渐 转向 大 规模 建 模 ， 由 分 子 生 物 学 家 和 天 文学 家 打头 阵 。 人 们 勉强 
留意 到 了 房地产 泡沫 ， 而 其 主要 影响 就 是 使 人 才 从 华尔街 转移 到 硅谷 ， 
并 受到 欢迎 。2011 年 , “大 数据 ?的 概念 流行 起 来 ， 机 需 学 习 被 明确 归 入 
全 球 经 济 未 来 的 中 心 。 当 今 ， 似 乎 没有 哪个 人 类 铅 研 的 领域 不 受到 机 器 
学 习 的 影响 ， 甚 全 包括 看 起 来 没有 多 大 关系 的 领域 《如 音乐 、 体 育 、 品 
酒 ) 。 


尽管 机 器 学 习 发 展 很 明显 ， 但 这 也 仅仅 是 未 来 的 预告 。 虽 然 它 有 
用 ， 但 实际 上 当今 在 工业 上 起 作用 的 学 习 算 法 的 生成 还 是 受到 了 很 大 限 
制 。 如 有 果 现 在 实验 室 的 算法 能 在 各 领域 的 前 线 使 用 ， 比 和 尔 : 盖 次 说 机 顺 
学 习 的 突破 产生 的 价值 将 相当 于 10 家 微软 ， 其 实 这 个 说 法 有 点 保守 了 。 
如 果 这 些 观点 让 研究 人 员 真 正 觉 得 眼前 一 片 光 明 ， 而 且 收 到 效果 ， 那 么 
机 需 学 习 融 来 的 就 不 仅仅 是 新 的 文明 时 代 ， 还 是 地 球 生命 进 化 的 新 阶 
段 。 


怎样 才能 实现 这 个 目标 ? 学 习 算法 如 何 运 行 ? 现在 它们 不 能 做 什 
么 ? 它们 的 下 一 代 会 是 怎样 的 ? 机 器 学 习 音 命 将 以 什么 方式 呈现 ? 你 得 
抓 住 哪些 机 遇 ， 提 防 哪些 危险 ? 这 些 就 是 这 本 书 要 讲 的 内 容 。 


1. 亚马逊 “土耳其 机 器 人 ”(Amazon Mechanical Turk) 是 一 个 Web 服 务 应 用 程序 接口 ， 
开发 商 通 过 它 可 以 将 人 的 智能 整合 到 远程 过 程 调用 。 编者 注 


机 需 学 习 的 应 用 非 间 广泛 ， 更 为 怀 人 的 是 ， 相 同 算法 可 完成 不 同 的 
事情 。 在 机 器 学 习 领 域 之 外 ， 如 果 你 要 解决 两 个 不 同 的 问题 ， 就 得 编写 
两 个 不 同 的 程序 。 这 些 程 序 可 能 用 到 相同 的 基础 架构 ， 如 相同 的 编程 语 
言 或 数据 库 系 统 。 但 是 ， 如 果 你 想 处 理 信 用 卡 申 请 ， 诸 如 下 棋 的 程序 则 
坚 无 用 处 。 在 机 器 学 习 领 域 ， 如 采 提 供 适 当 的 数据 来 让 机 器 学 习 ， 那 么 
相同 的 算法 既 可 以 处 理 信 用 卡 申请 ， 也 可 以 下 棋 。 实 际 上 ， 大 量 的 机 器 
学 习 应 用 仅仅 由 几 个 算法 来 负责 ， 在 接 下 来 的 几 个 章节 中 我 们 会 谈 到 这 
些 算法 。 


例如 ， 朴 又 贝 叶 斯 算法 就 是 一 个 可 以 用 短 方 程 来 表达 的 学 习 算 法 。 
只 要 提供 患者 病历 的 数据 库 ， 包 括 病 人 的 症状 、 检 查 结果 ， 或 者 他 们 是 
人 否 有 什么 特殊 情况 ， 朴 系 贝 叶 斯 算法 就 可 在 一 秒 之 内 做 出 诊断 ， 而 且 往 
往 比 那些 花 几 年 在 医学 院 学 习 的 医生 还 要 强 ， 甚 至 它 还 可 打败 花费 数 干 
小 时 构建 的 医学 专家 系统 。 该 算法 还 可 应 用 于 学 习 垃 圾 邮件 过 滤器 ， 乍 
一 看 ， 这 和 医疗 诊断 又 无 关系 。 男 外 一 个 简单 的 学 习 算 法 就 是 最 近邻 算 
法 ， 它 的 用 途 十 分 广泛 ， 从 笔迹 识别 到 控制 机 器 人 手 ， 以 及 推荐 你 可 能 
喜欢 的 书籍 或 者 电影 。 诀 策 树 学 习 算 法 也 同样 擅长 决定 你 的 信用 卡 申 请 
古 否 应 被 通过 、 寻 找 DNA 中 的 统 接 点 ， 以 及 下 棋 时 指导 下 一 步 该 怎么 


走 。 


相同 的 学 习 算 法 不 仅 可 以 完成 无 穷 无 尽 且 不 同 的 事情 ， 而 且 和 被 它 
们 蔡 代 的 传统 算法 相 比 ， 它 们 要 简单 得 多 。 多 数学 习 算 法 可 能 只 需 数 白 
行 或 者 数 干 行 代 码 。 相 比 之 下 ， 传 统 程序 则 需 几 十 万 甚至 上 百 万 行 代 
码 ， 并 且 单 个 学 习 算法 就 可 以 导出 无 数 个 不 同 的 程序 。 


如 果 那 么 少 的 学 习 算法 束 可 以 做 那么 多 事 ， 那 么 有 一 个 逻辑 上 的 疑 
问 : 单个 学 习 算 法 可 以 把 所 有 事情 都 做 完 吗 ? 换 句 话说 ， 单 个 算法 可 以 
学 习 所 有 能 从 数据 中 学 习 的 东西 吗 ? 这 是 一 个 非常 艰巨 的 任务 ， 因 为 这 
基本 上 包含 成 年 人 大 脑 里 以 及 人 类 进步 所 创造 的 一 切 ， 还 有 所 有 科学 知 
识 的 总 和 。 实 际 上 ， 对 所 有 主要 的 学 习 算 法 一 一 包括 最 近邻 算法 、 决 集 
树 学 习 算 法 以 及 贝 叶 斯 网 络 〈 朴 素 贝 叶 斯 的 概括 ) 一 一 来 说 ， 如 果 你 为 
学 习 算 法 提供 足够 、 适 当 的 数据 ， 访 算法 可 以 实现 任 一 功能 〈 对 学 习 任 
何 东西 来 说 ， 都 与 数学 相关 ) 。 需 要 注意 的 是 , “足够 数据 ”也 有 可 能 
限 。 学 习 无 限 数据 需要 做 出 假设 ， 如 我 们 会 看 到 的 那样 ， 而 且 不 同 的 学 
习 算 法 会 有 不 同 的 假设 。 


如 琳 不 把 这 些 假设 钥 入 算法 中 ， 而 是 将 其 连同 数据 一 起 ， 当 作 显 示 
输入 ， 并 人 允许 用 户 选择 插入 哪 一 个 ， 甚 全 陈述 新 的 假设 ， 那 么 会 怎样 ? 
有 没有 这 种 算法 ， 可 以 接收 任何 数据 及 假设 并 输出 隐藏 其 中 的 知识 ? 我 
相信 有 。 当 然 ， 我 们 得 限制 假设 的 可 能 性 ， 人 否则 如 果 把 整个 目标 知识 都 
以 假设 形式 赋予 算法 ， 那 就 是 在 作 闵 。 


我 们 可 以 通过 限制 输入 的 规模 、 要 求 假 设 弱 于 当前 学 习 算 法 等 方 
法 ， 来 实现 这 个 目的 。 


那么 疑问 束 会 变 成 : 这 些 假设 要 弱 到 何 种 程度 ， 但 仍 能 够 从 无 限 数 
据 中 获得 所 有 相关 知识 ? 注意 “相关 ”这 个 词 : 我 们 仅仅 对 存在 于 世界 的 
知识 感 兴趣 ， 对 不 存在 的 世界 没有 兴趣 。 因 此 发 明 一 种 通用 的 学 习 算 法 
可 归结 为 及 现 宇宙 最 深层 的 规律 ， 所 有 现象 都 体 循 该 规律 ， 然 后 找 出 计 


算 的 有 效 方法 来 将 其 与 数据 结合 起 来 。 要 找到 这 个 “计算 的 有 效 方法 ”， 
就 不 能 将 物理 定律 视 为 万 物 规律 ， 如 我 们 将 看 到 的 那样 。 然 而 ， 这 并 不 
意味 着 通用 的 学 习 算 法 要 和 专用 算法 一 样 高 效 。 正 如 在 计算 机 科学 中 党 
发 生 的 那样 ， 我 们 宁愿 牺牲 效率 来 换取 通用 性 。 这 在 学 习 既 定 目标 知识 
所 需 数据 的 量 上 也 适用 ; 一 般 通 用 学 习 算 法 会 比 专用 算法 需要 更 多 的 数 
据 《 但 如 果 我 们 有 必要 的 数量 ， 惑 没 问 题 )》， 而 且 数 据 越 多 ， 越 有 可 能 
会 这 样 。 


那么 ， 这 束 是 本 书 的 中 心 假 设 : 


所 有 知识 ， 无 论 是 过 去 的 、 现 在 的 还 是 未 来 的 ， 都 有 可 能 通过 单个 
通用 学 习 算法 来 从 数据 中 获得 。 


我 将 该 学 习 算法 称 为 终极 算法 ”。 如 果 这 种 算法 成 为 可 能 ， 它 的 发 
明 将 成 为 人 类 最 伟大 的 科学 成 就 之 一 。 实 际 上 ， 终 极 算 法 是 我 们 最 不 原 
意 发 明 的 东西 ， 因 为 一 旦 对 其 放松 ， 它 会 继续 及 明 一 切 有 可 能 发 明 的 东 
西 。 我 们 要 做 的 ， 就 是 为 它 提 供 足 够 、 适 当 的 数据 ， 通 过 这 些 数据 ， 它 
会 发 现 相 应 的 知识 : 给 它 视频 流 ， 它 就 会 观看 ; 给 它 图 书馆 ， 它 就 会 阅 
读 ; 给 它 物理 实验 结果 ， 它 就 会 发 现 物理 定律 : 给 它 DNA 晶 体 学 数据 ， 
它 就 会 发 现 DNA 的 结构 。 


这 可 能 听 起 来 有 点 八 竿 子 打 不 着 : 一 种 算法 怎么 可 能 学 习 那 么 多 不 
同 的 事情 ， 而 且 是 这 么 难 的 事情 呢 ? 但 实际 上 ， 种 种 证 据 表 明 终 极 算 法 
古 存 在 的 。 下 面 我 们 来 看 看 它们 是 什么 样 的 。 


来 日 神经 科学 的 论证 


2000 年 4 月 ， 肪 省 理工 学 院 的 神经 系统 科学 家 团队 在 《自然 》 杂 志 


上 发 布 了 一 项 非 同 寻 常 的 实验 结果 。 他 们 对 雪 狠 的 大 脑 进行 重新 布线 ， 
改变 了 雪 狠 从 眼睛 到 听觉 谈 层 《大脑 负责 处 理 声音 的 部 分 ) 以 及 从 耳 未 
到 视觉 皮 层 之 间 的 连接 。 你 可 能 觉得 实验 结 末 束 是 雪 狠 会 严重 致 残 ， 但 
并 没有 : 听觉 皮层 学 会 看 ， 视 觉 皮层 学 会 旷 ， 而 且 雪 用 没事 。 一 般 的 哺 
乳 动物 ， 其 视觉 皮层 都 包含 一 张 视网膜 地 图 皮层 中 ， 与 视网膜 附近 区 
域 相连 的 神经 元 彼此 相互 接近 。 相 反 ， 大 脑 被 重新 布线 的 雪 狠 在 听觉 皮 
层 中 形成 了 这 张 视网膜 图 。 如 果 视 觉 信息 重新 导入 里 体感 觉 皮 层 〈( 负 和 贡 
感知 触觉 )， 野 体感 觉 及 层 也 会 学 会 看 。 其 他 哺乳 动物 也 有 这 样 的 能 
力 。 


对 于 天 生 看 不 见 的 人 ， 视 觉 及 层 可 以 负责 大 脑 的 其 他 功能 。 对 于 听 
不 见 的 人 ， 了 听觉 皮层 也 可 以 这 么 做 。 盲 人 可 以 借助 舌头 来 学 会 “看 ”， 方 
法 是 将 头 戴 式 摄像 机 的 视频 图 像 发 送 至 天 头 上 的 一 组 电极 上 ， 蜗 电压 与 
高 像素 对 应 ， 低 电压 与 低 像素 对 应 。 本 : 安 德 伍德 是 盲人 ， 小 时 候 就 自 
学 像 师 晤 那样 ， 用 回声 定位 来 导航 。 


通过 呈 舌 头 、 听 回声 ， 他 能 够 到 处 走动 且 不 会 撞 到 障碍 物 ， 会 踩 滑 
板 车 ， 甚 至 还 能 打 篮 球 。 所 有 这 些 例子 者 证明， 大 脑 目 始 至 终 只 使 用 了 
一 种 相同 的 学 习 算 法 ， 那 些 负 责 不 同 知觉 的 区 域 ， 区 别 也 仅仅 在 于 与 其 
相连 、 输 入 信息 的 器 官 〈( 如 眼睛 、 耳 打 、 蜡 子 )。 肥 过 来 ， 关 联 区 大 
脑 的 各 个 皮层 ) 通过 与 不 同 的 感觉 区 《各 个 感觉 器 官 ) 相连 ， 来 实现 其 
机 能 ， 而 执行 区 则 通过 连接 关联 区 来 实现 其 机 能 ， 然 后 输出 反馈 。 


通过 在 显微镜 下 观察 皮层 可 以 得 出 相同 的 结论 。 同 样 的 布线 模式 不 
断 重复 ， 随 处 可 见 。 皮 质 是 一 个 6 层 的 柱状 物 ， 反 人 馈 回路 达到 大 脑 一 个 
叫 丘 脑 的 结构 ， 以 及 短程 序 抑制 连接 和 远程 兴奋 性 连接 反复 出 现 的 模 
式 。 昌 然 表 现 出 一 定数 量 的 变异 ， 但 这 看 起 来 更 像 是 来 自 同一 算法 而 
不 是 不 同 算法 ) 的 不 同 参数 或 者 设置 。 低 级 感官 领域 会 有 更 为 明显 的 差 
异 ， 但 正如 重新 布线 实验 表明 的 那样 ， 这 些 都 不 上 共有 决定 性 。 小 脑 是 比 
大 脑 更 早 进化 的 部 分 ， 负 责 简 单 的 运动 调节 ， 有 痢 非 常 明显 且 有 规律 的 


架构 ， 由 小 很 多 的 神经 元 构成 ， 因 此 ， 看 起 来 至 少 动作 学 习 使 用 的 是 不 
同 的 算法 。 然 而 ， 如 果 一 个 人 的 小 脑 受 到 损伤 ， 大 脑 皮 层 会 接管 它 的 机 
能 。 人 的 生物 进化 过 程 保 留 了 小 脑 ， 但 这 并 不 意味 着 小 脑 能 做 大 脑 皮 层 
不 能 做 的 事情 ， 只 是 因为 小 脑 更 加 高 效 。 


目 始 至 终 ， 大 脑 构 造 中 发 生 的 运算 也 同样 相似 。 大 脑 中 的 所 有 信息 
都 以 同样 方式 (通过 神经 元 的 放电 模式 ) 来 表示 。 学 习 机 制 也 相同 : 记 
忆 通 过 加 强 集 群 放电 神经 元 之 间 的 连接 得 以 形成 ， 涉 及 一 个 叫 作 长 时 程 
增强 的 生物 化 学 过 程 。 不 仅 人 脑 是 这 样 ， 不 同 的 动物 ， 其 大 脑 运行 机 制 
都 很 相似 。 我 们 的 大 脑 异常 大 ， 但 似乎 与 其 他 动物 一 样 ， 其 构建 仁 循 同 
样 的 原则 。 


证 明 大 脑 皮 层 统一 性 的 另 一 个 证 据 来 目 所 谓 的 基因 组 贫乏 。 人 类 大 
脑 中 的 连接 数量 是 基因 组 中 字母 数量 的 100 万 余 倍 ， 因 此 从 物理 角度 ， 
基因 组 不 可 能 错 明 白 大 脑 构造 的 细 证 。 


然而 ， 关 于 大 脑 是 终极 算法 这 个 观点 的 最 重要 论据 ， 就 是 大 脑 负责 
我 们 能 感知 以 及 想象 的 一 切 。 如 果 某 物 存 在 ， 但 大 脑 无 法 对 其 进行 学 
习 ， 那 么 我 们 就 不 知道 它 的 存在 。 我 们 可 能 只 是 没 看 见 它 ， 或 者 认为 它 
是 随机 出 现 的 。 不 管 怎样 ， 如 果 我 们 将 大 脑 放 入 计算 机 中 运行 ， 那 个 算 
法 就 能 掌握 我 们 能 学 会 的 一 切 。 因 此 发 明 终 极 算法 的 一 种 途径 《可 以 说 
是 最 流行 的 一 种 ) 就 是 对 人 脑 进行 逆 回 解析 。 杰 夫 : 和 霍金 斯 (Jeff 
Hawkins) 在 他 的 著作 《人 工 智 能 的 未 来 》 (On Intelligence〉 中 对 此 进 
行 了 尝试 。 雷 : 库 效 韦 尔 〈Ray Kurzweil) 把 他 的 希望 放 在 奇 点 上 一 一 人 
工 智能 的 凯 起 远 远 超过 人 类 的 多 样 性 。 这 样 做 的 同时 ， 他 还 在 《如 何 创 
造 思 维 》 (How to Create a Mind) 一 书 中 对 此 进行 了 笠 试 。 虽 然 如 此 ， 
我 们 会 看 到 ， 这 仅仅 是 几 个 可 能 途径 中 的 一 个 。 这 甚至 不 一 定 是 最 有 可 
能 的 一 个 ， 因 为 大 脑 非常 复杂 ， 而 我 们 还 处 于 解密 大 脑 的 初级 阶段 。 男 
一 方面 ， 如 果 我 们 找 不 到 终极 算法 ， 奇 点 也 不 会 很 快 发 生 。 


并 不 是 所 有 的 神经 系统 科学 家 都 相信 大 脑 色 层 的 统一 性 ， 在 我 们 肯 


定 这 个 观点 之 前 ， 需 要 学 习 很 多 东西 。 关 于 大 脑 能 掌握 以 及 不 能 掌握 的 
东西 ， 这 个 问题 也 引起 了 业界 激烈 的 讨论 。 如 果 有 我 们 知道 但 大 脑 不 能 
学 习 的 东西 ， 那 么 这 个 东西 肯定 已 经 通过 进化 被 掌握 了 。 


来 自 进 化 论 的 论证 


生物 多 样 性 源 于 单一 机 制 ， 自然 选择 。 值 得 注意 的 是 ， 计 算 机 科学 
家 对 该 机 制 非常 熟悉 : 我们 通过 反复 研究 尝试 许多 备 选 方法 来 解决 问 
题 ， 选 择 并 改进 最 优 方案 ， 并 尽 可 能 多 地 答 试 这 些 步骤 。 进 化 论 是 一 种 
算法 。 套 用 碍 和 尔 斯 ' 巴 贝 奇 〈 维 多 利 亚 时 期 的 计算 机 先驱 人 物 ) 的 观 
点 ， 上 禹 创造 的 不 是 物种 ， 而 是 创造 物种 的 算法 。 达 和 尔 文 在 《物种 起 
源 》 的 总 结 部 分 提 到 的 “无 限 形体 ， 美 丽人 至极” 掩饰 了 最 美的 统一 性 ， 所 
有 这 些 形体 都 被 编码 在 DNA 中 ， 所 有 这 些 形体 都 通过 改变 和 连接 这 些 染 
色 体 来 表现 。 只 通过 该 算法 的 一 个 描述 ， 谁 会 猜 出 它 产 生 了 你 和 我 ?如 
果 进 化 论 这 个 算法 能 学 习 我 们 ， 可 以 想象 它 还 可 以 学 习 能 学 习 到 的 一 
切 ， 条 件 是 我 们 将 进化 论 这 个 算法 运用 到 足够 强 的 计算 机 上 。 的 确 ， 在 
机 需 学 习 领 域 ， 通 过 模仿 上 自然 选择 来 使 程序 进化 是 许多 人 正在 努力 做 的 
事情 。 因 此 ， 进 化 论 是 另外 一 个 有 和 希望 通 往 终极 算法 的 途径 。 


利用 足够 多 的 数据 ， 一 种 简单 的 算法 能 掌握 什么 ?关于 这 个 问题 ， 
最 经 典 的 例子 就 是 进化 论 。 输 入 进化 论 这 个 算法 的 信息 是 所 有 存在 过 
的 、 活 着 的 生物 的 经 历 以 及 命运 〈 对 现在 的 算法 来 说 是 大 数据 ) 。 此 
外 ， 这 个 进化 论 算法 已 经 在 地 球 上 最 强大 的 计算 机 运行 了 300 多 万 年 
一 一 这 人 台 强 大 的 计算 机 就 是 地 球 自 己 。 运 行 这 个 算法 的 真正 计算 机 应 该 
比 地 球 这 台 “ 计 算 机 ”运转 得 更 快 、 数 据 密集 性 更 低 。 哪 一 个 模型 更 适合 
终极 算法 : 进化 还 是 大 脑 ? 这 是 和 机 器 学 习 有 关 、 上 自然 与 培育 之 间 的 辩 
论 。 正 如 我 们 的 存在 依靠 的 是 目 然 与 培育 的 共同 力量 ， 也 许 真 正 的 终极 


算法 包含 这 两 个 方面 。 


来 日 物理 学 的 论证 


在 1959 年 的 一 篇 著名 文章 中 ， 物 理学 家 、 诺 贝尔 物理 学 奖 得 主 尤 金 
` 维 格 纳 惊叹 “数学 在 上 自然 科学 中 不 可 思议 的 有 效 性 ”。 由 少量 的 观察 推 
导出 规律 ， 是 什么 神奇 的 力量 让 这 些 规律 可 以 运用 到 超出 其 预测 范围 的 
领域 ? 这 些 规 律 都 是 基于 数据 得 来 的 ， 而 为 什么 这 些 规律 比 数据 还 要 准 
确 好 几 个 数量 级 ? 最 重要 的 是 ， 为 什么 简洁 、 抽 象 的 数学 语言 能 够 如 此 
精确 地 解释 我 们 无 限 复 某 的 世界 ? 维 格 纳 党 得 这 是 一 个 很 大 的 谜 ， 和 觉得 
既 幸 运 又 无 法 理解 。 数 学 就 是 如 此 ， 而 且 终 极 算 法 就 是 其 逻辑 的 延伸 。 


如 果 这 个 世界 仅仅 是 一 个 不 断 变 大 、 哈 哗 吵 杂 的 困惑 体 ， 那 么 我 们 
有 理由 怀疑 通用 学 习 算 法 的 存在 。 但 如 果 我 们 所 经 历 的 一 切 ， 仅 仅 是 几 
个 简单 规律 的 产物 ， 那 么 单个 算法 能 推导 出 所 有 一 切 能 推导 的 东西 ， 束 
征 可 以 理解 的 。 终 极 算 法 要 做 的 就 是 提供 一 条 捷径 ， 通 过 实际 观 色 ， 用 
简短 的 算式 推导 《而 不 是 长 长 的 算式 ) 来 得 出 这 些 规律 的 结果 。 


例如 ， 我 们 虽然 相信 物理 定律 引起 进化 ， 但 是 不 知道 具体 怎么 进 
行 。 我 们 知道 自己 可 以 像 达 尔 文 那样 ， 通 过 观察 直 接 推导 出 目 然 选择 规 
律 。 无 数 错 误 的 推论 就 是 由 那些 观察 得 出 的 ， 但 多 数 人 不 会 做 出 那些 错 
误 的 推论 ， 因 为 我 们 对 世界 有 着 广泛 的 认识 ， 会 对 目 己 的 推论 形成 民 性 
影响 ， 而 且 那 些 认 识 也 与 自然 规律 相符 。 


物理 规律 之 美 多 大 程度 渗透 到 更 高 的 领域 《如 生物 学 、 社 会 学 ) ， 
这 一 点 有 答 观 察 。 但 对 混沌 的 研究 提供 了 许多 诱 人 的 例子 ， 这 些 例 子 和 
拥有 相似 行为 的 不 同系 统 相 关 ， 而 普 适 性 理论 可 以 解释 这 些 例子 。 曼 德 
布 阁 特集 合 (Mandelbrot Set) 就 是 很 完美 的 例子 ， 能 解释 一 个 很 简单 的 


重复 程序 如 何 产生 无 数 种 类 的 形式 。 如 果 世 界 上 的 山峰 、 河 流 、 云 灯 以 
及 树木 都 是 这 些 重 复 程序 的 产物 〈 分 形 几 何 学 表明 它们 就 是 ) ， 也 许 那 
些 程序 只 是 单个 程序 的 不 同 参数 化 ， 而 该 单个 程序 可 以 从 那些 程序 推导 
中 得 出 。 


在 物理 学 中 ， 适 用 于 不 同 数量 的 方程 ， 往 往 可 以 用 来 描述 发 生 在 不 
同 领域 的 现象 ， 例 如 量子 力学 、 电 磁 学 、 流 体 动力 学 。 泌 动 方程 、 扩 向 
方程 、 泊 松 方程 表明 : 一 旦 我 们 在 茶 个 领域 发 现 它们 ， 也 很 快 能 在 其 他 
领域 友 现 它们 ; 一 旦 我 们 在 某 个 领域 懂得 解 开 它 们 ， 也 能 在 所 有 领域 将 
它们 解 开 。 此 外 ， 所 有 这 些 方程 都 很 简单 ， 涉 及 几 个 和 空间 、 时 间 有 关 
的 数量 的 相同 导数 。 很 容易 想象 ， 它 们 都 是 主 方程 的 几 个 例子 ， 而 终极 
算法 要 做 的 ， 就 是 用 不 同 的 数据 集 来 将 它 实 例 化 。 


另外 的 证 扎 来 自 最 优化 。 节 优化 是 数学 的 分 文 ， 天 注 的 是 为 函数 找 
到 输入 值 ， 使 其 产生 最 大 输出 值 。 例 如 ， 找 到 购买 及 销售 股票 的 排序 ， 
用 来 最 大 化 你 的 全 部 回报 ， 这 瓯 是 一 个 最 优化 问题 。 在 最 优化 中 ， 简 单 
的 函数 往往 能 引出 惊人 的 复杂 方案 。 最 优化 几乎 在 每 个 领域 都 扮演 十 分 
重要 的 角色 ， 包 括 科 学 、 技 术 、 商 业 ， 还 有 机 器 学 习 。 每 个 领域 在 约束 
条 件 下 进行 最 优化 ， 该 限制 条 件 由 其 他 领域 的 最 优化 状态 来 决定 。 我 们 
努力 在 经 济 的 限制 下 将 幸福 感 最 大 化 ， 这 也 是 公司 在 受到 当前 技术 水 平 
限制 下 的 最 佳 方案 ， 反 过 来 成 为 我 们 在 生物 学 及 物理 学 限制 下 能 找到 的 
最 佳 方案 。 反 过 来 ， 生 物 学 是 进化 学 在 物理 学 和 化 学 的 约束 下 进行 优化 
的 结果 ， 而 物理 定律 本 里 又 是 最 优化 问题 的 解决 方法 。 因 此 ， 可 能 所 有 
事物 的 存在 ， 都 是 一 个 中 心 优 化 问题 进一步 的 解决 方案 ， 而 终极 算法 随 
独 那 个 中 心 问题 的 叙述 而 产生 。 


不 仅 物 理学 家 和 数学 家 在 寻找 不 同 领域 之 间 意 想不到 的 联系 ， 生 物 
学 家 也 在 寻找 。 在 《 论 契 合 : 知识 的 统合 》 (Consilience) 一 书 中 ， 著 
名 生物 学 家 爱德华 .威尔逊 慷慨 激昂 地 阐释 了 知识 〈 从 科学 到 人 文学 ) 
的 统一 性 。 终 极 算 法 就 是 该 统一 性 的 完美 表达 : 如 果 所 有 知识 共同 遵循 


一 个 模式 ， 那 么 终极 算法 就 存在 ， 反 之 则 不 存在 。 


然而 ， 物 理学 的 简洁 性 独一无二 。 在 物理 学 和 工程 学 之 外 ， 数 学 的 
轨迹 就 更 加 混合 。 有 时 数学 仅 限 于 用 起 来 有 效 ， 而 有 时 它 的 模型 义 过 于 
简单 ， 无 法 使 用 。 然 而 ， 过 于 简 蛙 的 倾 回 源 于 人 类 思维 的 各 种 限制 ， 而 
不 是 源 于 数学 的 种 种 限制 。 大 脑 的 大 多 数 人 硬件 (或 许 该 叫 “ 湿 件 ”) 负责 
人 体感 知 和 活动 ， 而 为 了 做 算术 ， 我 们 就 得 借用 因 语 言 得 到 进化 的 那 部 
分 大 脑 。 计 算 机 就 没有 这 样 的 限制 ， 而 且 可 以 轻易 地 将 大 数据 变 成 非常 
负责 的 模型 。 在 数学 的 过 度 有 效 性 与 数据 的 过 度 有 效 性 面前 ， 你 就 会 选 
择机 需 学 习 。 生 物 学 和 社会 学 绝对 不 会 像 物 理学 一 样 简单 ， 但 我 们 发 现 
其 真理 的 方法 可 以 做 到 那样 简单 。 


来 自 统计 学 的 论证 


根据 一 个 统计 学 流派 的 观点 ， 所 有 形式 的 学 习 都 是 基于 一 个 简单 的 
公式 一 一 如 我 们 所 知 ， 瓯 是 贝 叶 斯 定理 。 贝 叶 斯 定理 会 告诉 你 ， 每 当 你 
看 到 新 的 证 据 后 ， 如 何 更 新 你 的 想法 。 一 种 简单 的 贝 叶 斯 学 习 算法 对 世 
界 进行 一 系列 假设 ， 由 此 开始 进行 学 习 。 妆 它 看 到 新 的 数据 时 ， 与 该 数 
据 匹 配 的 假设 更 有 可 能 会 成 立 〈 或 者 不 可 能 成 立 ) 。 在 观察 足够 的 数据 
后 ， 某 个 假设 会 成 立 ， 或 者 几 个 假设 同时 成 立 。 例 如 ， 我 在 寻找 一 个 能 
够 准确 预测 股票 走势 的 程序 ， 该 程序 预测 条 只 股票 会 下 跌 ， 结 果 该 股票 
却 上 涨 了 ， 那 么 该 程序 就 会 失去 我 的 信任 。 我 审核 儿 个 备 选 程序 之 后 ， 
只 选择 了 几 个 可 信赖 的 程序 ， 它 们 概括 了 我 对 股票 市 场 的 新 认识 。 


贝 叶 斯 定理 就 是 将 数据 变 成 知识 的 机 器 。 气 贝 叶 斯 统计 学 派 的 观 
点 ， 贝 叶 斯 定理 是 将 数据 变 成 知识 的 唯一 正确 方法 。 如 果 该 学 派 的 观 操 
正确 ， 贝 叶 斯 定理 要 么 就 是 终极 算法 ， 要 么 就 是 推动 终极 算法 发 展 的 动 
力 。 关 于 贝 叶 斯 定理 使 用 的 方法 ， 其 他 统计 和 学派 持 非常 保守 的 观点 ， 而 


且 会 更 愿意 用 不 同方 法 来 对 数据 进行 学 习 。 在 计算 机 发 明 出 来 之 前 ， 贝 
叶 斯 定理 只 能 应 用 在 非常 简单 的 问题 中 ， 说 它 是 通用 的 学 习 算 法 未 免 有 
点 牵强 附会 。 然 而 ， 在 大 数据 和 大 计算 的 辅助 下 ， 贝 叶 斯 定理 在 广阔 的 
假设 空间 中 找到 了 出 路 ， 而 且 已 经 扩展 到 每 个 人 们 能 想到 的 领域 中 。 如 
果 说 存在 贝 叶 斯 算法 无 法 学 习 的 东西 ， 只 是 现在 还 没 友 现 它们 。 


来 目 计 算 机 科学 的 论证 


我 在 大 四 时 ， 用 了 一 个 夏天 玩 俄 罗斯 方块 游戏 ， 这 是 一 个 涉及 方块 
合 加 的 电子 游戏 ， 游 戏 中 由 正方 形 组 成 的 各 种 形状 的 图 案 往 下 掉 ， 你 要 
将 这 些 图 案 堆 起 来 ， 扒 得 越 么 密 越 好 。 如 有 宁 图 案 堆 到 屏幕 项 部 ， 那 么 游 
戏 就 结束 了 。 当 时 我 完全 没有 意识 到 ， 这 就 是 我 接触 NP 完 全 问题 三 的 
开始 ， 这 是 理论 计算 机 科学 最 重要 的 一 个 问题 。 后 来 我 才 知 道 ， 俄 罗斯 
方块 完全 不 是 简单 用 来 消 壮 的 游戏 ， 掌 握 这 个 游戏 〈 彻 乓 掌握 它 )， 束 
古 你 这 幸子 做 得 最 有 用 的 事情 。 如 果 你 一 步 到 位 ， 解 决 了 俄罗斯 方块 问 
题 ， 你 就 解决 了 科学 、 技 术 、 管 理 中 数 和 干 个 最 难 、 最 有 意义 的 问题 ， 因 
为 本 质 上 这 些 难题 就 是 同一 个 问题 。 这 是 在 所 有 科学 领域 中 最 让 人 惊讶 
的 事实 。 


弄 明 日 集 白 质 如 何 折 锥 成 特定 形状 ;， 通 过 DNA 来 重新 构建 一 系列 物 
种 的 进化 史 ;， 在 命题 逻辑 中 证 明定 理 ; 利用 交易 成 本 来 发 现 市 场 中 的 套 
利 机 会 ， 从 二 维 视图 中 推出 三 维 形状 ; 将 数据 压缩 到 磁盘 上 ;， 在 政治 活 
动 中 组 成 稳定 联盟 ;在 勇 切 流 中 模拟 清流 ;按照 给 定 回报 率 找 出 最 安全 
的 投资 组 合 、 到 达 几 个 城市 的 捷径 、 微 芯片 上 元 件 的 最 佳 布局 方案 、 生 
态 系统 中 传感器 的 最 佳 布 局 、 目 旋 玻 璃 门 最 低 的 能 量 状态 ， 安 排 好 航 
班 、 课 程 、 工 矿工 作 ， 最 优化 资源 分 配 、 城 市 交通 流 、 社 会 福利 ， 以 及 
提高 你 的 俄罗斯 方块 分 数 〈 最 重要 的 ) 一 一 这 些 都 是 NP 完 全 问题 ， 意 


思 是 ， 如 果 你 能 有 效 解决 其 中 的 一 个 问题 ， 就 能 有 效 解决 所 有 NP 类 问 

题 ， 包 括 相互 间 的 问题 。 谁 会 猜 到 ， 这 些 表面 上 看 起 来 迎 然 不 同 的 问 

题 ， 会 是 同一 个 问题 ? 如 条 它们 真 的 是 同一 个 问题 ， 就 可 以 说 一 种 算法 
能 学 会 解决 所 有 问题 〈 或 更 准确 地 说 ， 所 有 能 有 效 解决 的 例子 ) 。 


在 计算 机 科学 中 ，P 和 NP 是 两 类 最 重要 的 问题 (很 遗憾 ， 名 字 不 是 
很 有 助 于 记忆 ) 。 如 果 我 们 能 有 效 解决 它 ， 那 么 这 个 问题 就 属于 P; 如 
末 我 们 能 有 效 找到 其 解决 方案 ， 那 么 这 个 问题 属于 NP。 和 著名 的 P=NP 的 
问题 就 是 ， 能 有 效 找 到 的 问题 是 否 可 以 得 到 有 效 解决 。 因 为 NP 完 全 问 
题 ， 回 答 这 个 问题 需要 的 只 是 证 明 某 个 NP 完 全 问题 可 彼 有 效 解决 《或 
者 无 法 被 有 效 解决 ) 。NP 在 计算 机 科学 领域 并 不 是 最 难 的 一 类 问题 ， 
但 可 以 说 ， 它 是 最 难 的 “现实 ?类 问题 : 如 果 在 宇宙 灭亡 之 前 ， 你 无 法 找 
到 问题 的 解决 方法 ， 那 你 努力 解决 这 个 问题 的 意义 在 哪里 ? 人 类 擅长 给 
出 NP 难题 的 近似 解 ， 而 相反 ， 我 们 感 兴趣 的 问题 (如 俄罗斯 方块 问 
题 ) 往往 涉及 NP 问 题 。 人 工 智能 的 其 中 一 个 定义 是 ， 人 工 智能 包括 找 
到 NP 完 全 问题 的 所 有 局 发 性 解决 方案 。 为 了 找到 解决 方案 ， 我 们 逢 季 
把 问题 变 成 可 满足 性 问题 ， 也 融 是 典型 的 NP 完 全 问题 : 给 定 的 逻辑 公 
式 是 否 永 远 都 是 对 的 ， 或 者 它 是 不 是 目 相 让 盾 ? 如 果 我 们 发 明 一 种 学 习 
算法 ， 能 够 学 习 解 决 可 满足 性 问题 ， 那 么 有 充分 理由 认为 ， 这 个 算法 就 
古 终极 算法 。 


抛 开 NP 完 全 问题 ， 计 算 机 的 存在 本 身 就 明显 预示 着 终极 算法 的 存 
。 如 果 你 罕 越 回 到 20 世 纪 早 期 ， 告 诉 人 们 很 快 会 有 一 种 机 器 发 明 出 
， 能 够 解决 人 类 所 有 领域 的 难题 一 一 所 有 难题 都 通过 同一 台 机 器 解 
决 ， 那 么 没有 人 会 相信 你 。 人 们 会 说 ， 每 台 机 融 只 能 解决 一 个 问题 ， 缝 
幼 机 不 会 打字 ， 打 字 机 不 会 颖 幻 。1936 年 ， 艾 伦 . 图 灵 想 象 出 一 个 奇怪 
的 装置 ， 它 有 一 条 纸 带 和 机 器 头 ， 头 可 以 在 纸 带 上 进行 阅读 和 书写 ， 惑 
古 现 在 人 们 知 着 的 图 灵机 。 每 一 个 可 以 想得到 的 、 可 以 用 逻辑 推理 解决 
的 难题 ， 都 可 以 通过 图 灵机 解决 。 此 外 ， 一 从 所谓 的 万 能 图 灵机 可 以 通 
过 阅读 纸 带 上 的 有 具体 要 求 来 模仿 所 有 东西 ， 换 句 话 次 ， 我 们 能 够 对 图 灵 


涪 民 


机 进行 编程 ， 用 它 来 做 所 有 事情 。 


算法 是 归纳 的 过 程 ， 而 学 习 的 过 程 对 图 灵机 来 说 ， 就 是 演绎 的 过 
程 。 图 灵机 能 通过 对 算法 输入 、 输 出 行为 进行 阅读 来 模仿 其 他 算法 。 束 
像 存 在 许多 与 图 灵机 对 等 的 计算 模型 ， 可 能 也 存在 通用 学 习 算 法 的 许多 
不 同 的 等 价 公式 。 然 而 ， 问 题 的 关键 是 必须 找到 第 一 个 这 样 的 公式 ， 丈 
像 图 灵 找 到 通用 计算 机 的 第 一 个 公式 那样 。 


机 堪 学 习 算 法 与 知识 工程 师 


当然 ， 有 很 多 人 文 持 终极 算法 ， 也 有 很 多 人 怀疑 终极 算法 。 当 某 方 
法 可 以 简单 解决 复杂 问题 时 ， 人 存在 怀疑 符合 情理 。 对 终极 算法 最 坚定 的 
反抗 来 自 机 器 学 习 永 恒 的 敌人 : 知识 工程 。 根 据 知识 工程 文 持 者 的 观 
点 ， 知 识 无 法 目 动 被 学 习 ， 必 须 通过 人 类 专家 编 入 计算 机 ， 才 能 对 它 进 
行 学 习 。 的 确 ， 学 习 算 法 能 从 数据 中 提取 一 些 东西 ， 但 你 不 能 将 这 些 东 
西 和 真知 识 混 为 一 谈 。 对 知识 工程 师 来 说 ， 大 数据 不 是 新 石油 ， 而 是 统 
人 的 新 蛇 油 。 


在 人 工 智 能 出 现 早 期 ， 机 器 学 习 似乎 是 通 往 类 人 智能 计算 机 的 途 
径 。 图 灵 和 其 他 人 认为 ， 机 器 学 习 是 唯一 看 似 合 理 的 途径 。 但 后 来 知识 
工程 师 进 行 了 回击 ， 而 且 20 世 纪 70 年 代 机 大 学 习 处 于 次 要 地 位 。 在 20 世 
纪 80 年 代 的 一 段 时 间 ， 似 乎 知识 工程 师 要 接管 世界 了 ， 还 有 许多 企业 和 
国家 对 知识 工程 领域 进行 大 量 投资 。 但 后 来 人 们 开始 对 该 领域 失望 ， 而 
机 需 学 习 也 开始 凯 起 ， 一 开始 悄 无 声 电 ， 后 来 就 突 飞 狐 进 。 


尽管 机 器 学 习 成 功 了 ， 知 识 工程 师 们 还 是 党 得 不 信服 。 他 们 相信 ， 
机 器 学 习 的 局 限 性 很 快 会 变 得 明显 ， 钟 摆 会 摆 回 来 ， 局 势 会 扭转 。 马 文 
` 明 斯 基 是 肤 省 理工 学 院 的 教授 、 人 工 乔 能 的 先驱 人 物 ， 也 是 该 阵营 的 


重要 成 员 。 明 斯 基 不 仅 怀 疑 机 器 学 习 能 蔡 代 知识 工程 ， 他 也 怀疑 人 工 知 
能 的 所 有 统一 思想 。 明 斯 基 在 其 《意识 社会 》 (The Society of Mind) 一 
书 中 提 到 了 关于 智能 的 理论 ， 这 个 理论 可 以 被 不 客气 地 归纳 为 “意识 就 
古 一 个 接 一 个 该 死 的 东西 "”。《 意 识 社会 》 包 含 的 就 是 一 长 串 分 散 的 观 
上 护 ， 每 个 观点 都 坚 不 相关 。 这 种 实现 人 工 智能 的 方法 根本 没什么 用 ， 它 
只 是 由 计算 机 进行 的 收集 活动 。 没 有 机 器 学 习 ， 需 要 建立 智能 代理 的 观 
点 将 会 变 得 无 限 多 。 如 果 一 个 机 器 人 和 擎 握 了 人 类 所 有 的 技能 ， 但 怠 是 没 
有 和 学习 能 力 ， 那 么 人 类 不 久 就 会 把 它 扔 在 一 边 。 


明 斯 其 是 Cyc 项 目 (Cyc project) 的 狂热 支持 者 ， 这 是 人 工 智能 历 
史上 最 内 名 昭著 的 失败 项 目 。Cyc 项 目的 目标 是 通过 将 所 有 必要 知识 输 
入 计算 机 中 ， 来 解决 人 工 智能 问题 。20 世 纪 80 年 代 这 个 项 目 刚 开始 时 ， 
它 的 领导 者 道 格 : 莱 纳 特 (Doug Lenat) 就 信心 满 满 地 预测 ，10 年 之 内 该 
项 目 束 会 取得 成 功 。30 年 后 ，Cyc 项 目 不 停 扩大 ， 但 仍 无 法 做 常理 性 推 
理 。 具 有 讽刺 意味 的 是 ， 莱 纳 特 终于 文 持 通过 挖掘 网 页 来 将 Cyc 填 满 ， 
这 并 非 因 为 Cyc 可 以 阅读 ， 而 是 因为 别 无 他 法 。 


即使 奇迹 及 生 ， 我 们 能 够 对 所 有 必要 的 数据 进行 编程 ， 厅 烦 也 会 不 
叶 出 现 。 过 去 几 年 ， 几 个 研究 组 已 经 尝试 构建 完整 的 智能 代理 ， 方 法 就 
是 将 所 有 算法 集中 起 来 ， 用 于 想象 、 语 音 识别 、 语 言 理 解 、 推 理 、 计 
划 、 导 航 、 操 作 等 。 没 有 统一 的 结构 ， 这 些 答 试 将 碰 到 “复杂 性 ?这 个 难 
以 解决 的 难题 : 有 太 多 的 活动 件 、 太 多 的 交互 、 太 多 的 漏洞 ， 可 怜 的 人 
类 软件 工程 师 也 难以 应 付 。 知 识 工程 师 相 信 ， 人 工 乔 能 的 问题 仅仅 是 工 
程 学 的 问题 ， 但 是 我 们 还 没 达到 那个 点 一 一 工程 学 能 带领 我 们 走 完 下 面 
的 路 。1962 年 ， 肯 尼 迪 发 表 登 月 演讲 。 那 时 登 上 月 球 是 一 个 工程 学 问 
题 ， 但 1662 年 ， 它 就 不 是 了 ， 而 当今 它 则 更 加 靠近 人 工 智能 所 在 的 领 
域 。 


在 工业 领域 中 ， 除 了 在 一 些 利 基 领域 ， 没 有 任何 迹象 表明 知识 工程 
学 可 以 永远 和 机 需 学 习 鄞 争 。 为 什么 要 人 花费 精力 来 让 专家 缓慢 而 痛 知 地 


将 知识 编码 成 计算 机 能 识别 的 形式 ， 而 你 明明 可 以 在 一 秒 内 将 其 从 数据 
中 提取 出 来 ? 你 会 怎么 对 符 那 些 专家 不 懂 ， 你 却 可 以 从 数据 中 及 现 的 东 
西 ? 而 当 数 据 不 足 时 ， 知 识 工程 学 的 成 本 倒是 很 少 会 超过 其 带 来 的 葵 
处 。 反 过 来 ， 想 象 一 下 ， 如 果农 民 要 将 每 株 玉 米 进 行 工程 化 ， 而 不 去 播 
种 并 让 它们 生长 ， 那 么 我 们 者 得 挨 饿 。 


为 一 个 对 机 强 学 习 持 怀疑 态度 的 人 是 语言 学 家 诡 姆 : 庆 姆 斯 基 。 乔 
姆 斯 基 认 为 ， 语 言 必须 是 与 生 俱 来 的 ， 因 为 孩子 昕 到 的 合乎 语法 的 句子 
仅仅 是 一 些 例子 ， 不 足以 学 习 语 法 。 然 而 ， 这 种 说 法 仅仅 将 学 习 语 言 的 
任务 交 给 了 进化 ， 它 并 没有 反对 终极 算法 ， 只 是 反对 “终极 算法 是 大 
脑 ” 这 个 观点 。 些 外， 如 果 存 在 通用 语法 《〈 乔 姆 斯 基 认 为 存在 ) ， 阐 发 
它 惑 是 阐发 终极 算法 的 步骤 之 一 。 这 种 情况 不 成 立 的 唯一 可 能 就 是 ， 语 
言 和 其 他 认 知 能 力 没 有 共同 点 ， 考 虑 到 进化 的 近 因 ， 这 令 人 难以 置信 。 


无 论 如 何 ， 如 果 我 们 将 乔 姆 斯 基 "“ 刺 激 贫 乏 ” 论 形式 化 ， 我 们 会 发 现 
这 个 观点 很 明显 是 错 的 。1969 年 ， 霍 宁 证 明 ， 概 率 上 下 文 无 关 语 法 
Cprobabilistic context-free grammar) 只 能 通过 正面 例子 掌握 ， 后 面 紧 跟 
的 是 更 有 力 的 结果 《〈 上 下 文 无 关 语法 是 语言 学 家 研究 的 内 容 ， 而 概率 类 
型 模拟 每 个 规则 被 使 用 的 概率 ) 。 另 外 ， 语 言 学 习 不 会 发 生 在 一 个 真空 
当中 ， 孩 子 需 要 从 父母 和 周围 环境 获取 各 种 语言 学 习 线 索 。 如 果 我 们 能 
从 几 年 时 间 里 学 习 的 例子 中 学 习 语言 ， 部 分 也 只 是 因为 语言 结构 与 世界 
结构 存在 相似 性 。 对 这 个 共同 结构 ， 我 们 感 兴趣 ， 而 且 从 霍 守 和 其 他 人 
那里 知道 ， 有 这 个 共同 结构 就 足够 了 。 


忆 体 来 讲 ， 乔 姆 斯 基 批 评 所 有 统计 学 习 。 他 把 统计 学 习 算 法 不 能 学 
习 的 东西 列 了 一 个 单子 ， 但 这 个 单子 已 经 过 时 50 年 了 。 乔 姆 斯 基 似 乎 把 
机 需 学 习 等 同 于 行为 主义 了 ， 根 据 行为 主义 ， 动 物 的 行为 沦 为 反应 与 奖 
励 之 间 的 联合 ， 但 机 器 学 习 不 是 行为 主义 。 现 代 学 习 算 法 能 够 掌握 丰富 
的 内 在 表象 ， 而 不 仪 仅 是 刺激 物 之 间 的 两 两 关系 。 


最 后 ， 事 实 胜 于 雄辩 。 统 计 学 语言 算法 起 作用 了 ， 而 手工 设计 的 语 


言 系 统 却 没 起 作用 。 第 一 件 令 人 大 开眼 界 的 事 发 生 于 20 世 纪 70 年 代 ， 当 
时 五 角 大 楼 的 研究 机 构 DARPA 组 织 了 第 一 个 大 型 语音 识别 项 目 。 让 所 
有 人 惊讶 的 是 ， 一 种 简单 的 序列 学 习 算 法 一 一 乔 姆 斯 基 嘲 笑 的 类 型 ， 轻 
易 地 打败 了 一 个 复杂 的 知识 系统 。 现 在 像 这样 的 学 习 算 法 几乎 用 于 每 一 
个 语音 识别 器 中 ， 包 括 Siri (苹果 公司 产品 上 的 一 项 智能 语音 控制 功 
能 ) 。 弗 和 雷 德 :页 里 尼克 ‘IBM 语音 研究 组 的 领导 ) 说 过 一 句 著 名 的 俏 
及 话 :“ 每 开除 一 名 语言 学 家 ， 我 的 语 首 识别 系统 的 错误 率 就 降低 一 个 
百分点 。2”20 世 纪 80 年 代 ， 陷 入 知识 工程 学 的 泥潭 里 ， 计 算 机 语言 学 差 
扩 走 同 尽 涉 。 目 那 以 后 ， 基 于 学 习 算 法 的 浪潮 已 经 磺 欠 这 个 领域 ,在 计 
算 机 语言 学 会 议 中 ， 几 乎 每 篇 文章 都 会 提 到 学 习 。 统 计 分 析 软 件 以 近乎 
人 类 水 平 的 精确 度 来 分 析 文 章 ， 而 手 编程 序 已 经 远 远 落 在 后 面 。 机 带 翻 
译 、 拼 写 纠正 、 词 性 标注 、 词 义 消 皮 、 问 题 回答 、 对 话 、 概 括 一 一 这 些 
领域 的 所 有 最 好 的 系统 都 利用 了 学 习 。 没 有 学 习 ， 添 条 不 可 能 在 《危险 
边缘 》 游 戏 中 战胜 人 类 。 


对 此 ， 弄 姆 斯 基 可 能 会 回应 ， 工 程 学 的 成 功 并 不 能 证 明 其 科学 有 效 
性 。 换 句 话 说 ， 如 果 你 的 楼 房 倒 塌 了 ， 而 且 你 的 发 电机 不 工作 了 ， 那 么 
也 许 就 是 因为 你 的 物理 学 观点 有 问题 。 乔 姆 斯 基 认 为 ， 语 言 学 应 该 把 重 
点 放 在 他 定义 的 “理想 的 ?说 话 者 和 听话 者 上 ， 这 让 他 忽略 了 诸如 类 似 的 
问题 : 语言 学 习 过 程 涉及 统计 学 。 因 此 ， 很 少 有 实验 主义 者 拿 他 的 理论 
当 回 事 ， 这 并 不 奇怪 。 


另外 一 个 可 能 会 反对 终极 算法 的 观点 来 自 心 理学 家 杰 瑞 ' 福 多 ， 他 
认为 心理 是 由 一 系列 模块 组 成 的 ， 这 些 模块 之 间 只 有 有 限 的 联系 。 例 
如 ， 当 看 电视 时 ， 你 的 “高 级 脑 ? 知 道 ， 那 只 是 光线 在 光滑 表面 的 闪烁 ， 
但 视觉 系 统 仍然 会 看 见 三 维 形状 。 即 使 我 们 相信 心理 模块 理论 ， 这 个 理 
论 也 并 没有 暗 指 不 同 的 模块 会 使 用 不 同 的 学 习 算 法 。 同 种 算法 对 诸如 视 
觉 及 语言 之 类 的 信息 都 起 作用 ， 这 个 说 法 才 足 够 有 力 。 


像 明 斯 基 、 弄 姆 斯 基 和 福 多 这 样 的 批评 家 曾经 占据 上 风 ， 但 万 竺 ， 


他 们 的 影响 力 已 经 逐渐 减弱 。 即 便 如 此 ， 我 们 仍 需 将 他 们 的 批评 铭记 于 
心 ， 这 样 才能 到 达 终 极 算 法 这 个 终点 ， 原 因 有 两 个 : 第 一 ， 知 识 工程 师 
和 机 器 学 习 算 法 一 样 ， 遇 到 许多 相同 的 问题 ， 虽 然 他 们 没有 成 功 ， 但 学 
到 了 许多 宝 贯 的 教训 ; 第 三， 学 习 和 知识 以 异常 微妙 的 形式 相互 交织 ， 
而 我 们 很 快 就 会 发 现 这 一 点 。 遗 憾 的 是 ， 这 两 个 阵营 各 说 各 话 。 他 们 讨 
论 不 同 的 主题 : 机 需 学 习 讨 论 概率 ， 而 知识 工程 学 讨论 逻辑 。 本 书后 面 
会 提 到 如 何 解决 这 个 问题 。 


天 鹅 咬 了 机 右 人 


“无 论 你 的 算法 有 多 聪明 ， 总 有 它 无 法 掌握 的 东西 。” 除 了 人 工 智能 
和 认 知 科学 ， 反 对 机 器 学 习 的 常见 观点 几乎 都 可 以 用 这 句 话 概况 。 纳 西 
姆 : 塔 勒 布 (Nassim Taleb) 在 《 黑 天 和 切 》 (The Black Swan) 一 书 中 强 
调 了 这 个 观点 。 有 些 事 真 的 无 法 预料 。 如 果 你 只 见 过 白天 鹅 ， 会 觉得 看 
到 黑 天 鹅 的 概率 是 0。2008 年 的 金融 危机 就 是 一 只 “ 黑 天 笋 ”。 


有 些 事 可 预料 ， 而 有 些 事 却 不 能 预料 ， 这 个 说 法 是 正确 的 ， 而 机 器 
学 习 算 法 的 首要 任务 就 是 区 别 可 预测 的 事 与 不 可 预测 的 事 。 但 终极 算法 
的 目标 是 要 学 习 一 切 能 认 知 的 东西 ， 这 比 搭 勒 布 和 其 他 人 想象 的 要 广阔 
得 多 。 房 地 产 泡沫 还 远 远 不 是 一 只 “ 黑 天 鹅 "， 相 反 ， 房 地 产 泡沫 是 经 过 
人 们 普 电 预测 的 。 大 多 数 银行 的 模型 没 能 预测 它 的 到 来 ， 也 只 是 因为 那 
些 模型 的 局 限 性 ， 而 不 是 机 器 学 习 的 局 限 性 。 学 习 算 法 很 擅长 精确 预测 
稀有 、 未 曾 发 生 的 事件 。 甚 至 你 也 可 以 说 ， 这 是 机 器 学 习 的 主要 任务 。 
如 果 你 没 见 过 黑 天 物 ， 那 么 它 出 现在 你 面前 的 概率 是 多 少 ? 它 是 已 知 物 
种 的 一 部 分 ， 最 后 变 成 黑色 的 天 鹅 ， 这 样 的 概率 是 多 少 ? 这 仅仅 是 一 些 
粗略 的 例子 ， 我 们 会 在 本 书 看 到 更 深刻 的 例子 。 


男 外 一 个 反对 机 絮 学 习 的 观点 与 以 上 观点 相关 ， 就 是 我 们 常 昕 到 的 


一 一 “数据 无 法 代替 人 类 的 直觉 ”>。 实 际 上 ， 这 人 句 话 可 以 反 过 来 : 人 类 直 
觉 无 法 代 蔡 数据 。 直 觉 就 是 你 在 不 知道 事实 的 情况 下 依靠 的 东西 ， 而 因 
为 你 不 常用 它 ， 所 以 直觉 非常 宝贵 。 但 如 果 证 据 摆 在 你 面前 ， 为 什么 还 
要 拒绝 证 据 ? 统计 分 析 在 棒球 界 打败 球 探 (正如 迈克 尔 : 刘 易 斯 在 《 魔 
球 : 逆境 中 制胜 的 智慧 》 一 书 中 明确 记录 的 那样 ) ， 在 品 酒 时 打败 内 
行 。 统 计 分 析 能 做 很 多 事情 ， 我 们 每 天 都 能 看 到 新 的 例子 。 因 为 大 量 数 
据 的 涌 入 ， 证 据 与 直觉 的 界限 正在 迅速 改变 ， 而 正如 所 有 革命 一 样 ， 要 
抛弃 所 有 墨守成规 的 方法 。 如 果 我 是 Y 公 司 X 领 域 的 专家 ， 我 就 不 想 被 
某 人 用 数据 推翻 。 行 业 里 有 名 话 :“ 多 听 听 顾客 的 话 ， 而 不 是 
HiPPO。”(HiPPO 是 “ 领 最 高 薪水 的 人 说 的 话 ” 的 简写 。) 如 果 想 成 为 明 
天 的 权威 人 士 ， 你 要 依靠 数据 ， 而 不 是 与 之 斗争 。 


好 了 ， 有 人 会 说 ， 机 需 学 习 能 从 数据 中 找到 统计 规律 ， 但 它 绝 不 会 
发 现 更 深刻 的 东西 ， 如 牛顿 定律 。 可 以 说 ， 它 还 没有 找到 那样 深刻 的 定 
律 ， 但 我 衣 定 它 将 来 会 找到 。 尽 管 有 羊 果 落下 的 故事 ， 但 深刻 的 科学 真 
理 并 不 是 那么 容易 就 能 获得 。 科 学 经 历 了 三 个 时 期 : 布 拉 赫 时 期 、 开 普 
勒 时 期 、 牛 顿时 期 。 对 于 布 拉 赫 时 期 ， 我 们 收集 了 很 多 数据 ， 就 像 第 谷 
- 布 拉 赫 日 复 一 日 、 年 复 一 年 耐心 记录 行星 的 位 置 那样 。 对 于 开 普 勒 时 
期 ， 我 们 使 经 验 规 律 符 合 数据 ， 残 像 开 普 勒 对 行星 运动 所 做 的 那样 。 对 
于 牛顿 时 期 ， 我 们 发 现 了 更 深刻 的 真理 。 大 多 数 科学 研究 和 布 拉 赫 、 开 
普 勒 所 做 的 工作 相似 ， 这 样 的 工作 束 是 科学 研究 的 内 容 ， 像 牛顿 偶然 友 
现 定律 的 例子 则 少见 。 当 今 ， 大 数据 所 做 的 工作 古 布 拉 赫 的 数 十 亿 售 ， 
机 强 学 习 的 工作 内 容 是 开 普 勒 的 数 百 万 倍 。 如 果 (但 愿 如 此 )〉 有 更 多 像 
牛顿 偶然 发 现 定律 这 样 的 时 刻 ， 这 样 的 时 刻 也 可 能 发 生 在 未 来 的 学 习 算 
法 中 ， 或 者 发 生 在 未 来 手足 无 措 的 科学 家 身上 ， 或 者 至 少 是 发 生 在 两 种 
可 能 都 存在 的 情况 下 《当然 ， 诡 贝尔 奖 会 颁发 给 科学 家 ， 不 管 他 们 是 持 
重要 的 观点 ， 还 是 只 按 了 一 下 按钮 。 学 习 算 法 就 没有 那样 的 志向 ， 要 拿 
诡 贝 尔 奖 ) 。 本 书 将 会 提 到 那些 算法 是 怎样 的 ， 并 推测 它们 会 发 现 什 
么 ， 例 如 ， 治 愈 况 症 的 方法 。 


终极 算法 是 狐狸 ， 还 是 刺 猎 


我 们 有 必要 考虑 藏 得 更 深 、 反 对 终极 算法 的 观点 ， 这 个 观点 可 能 是 
所 有 反对 观点 中 最 严肃 的 一 个 。 这 个 观点 不 是 来 自 知识 工程 师 或 者 不 满 
意 的 专家 ， 而 是 来 自 机 器 学 习 实践 人 员 。 假 设 我 是 持 反 对 观 的 机 器 学 习 
实践 者 ， 可 能 会 说 : “终极 算法 和 我 日 常生 活 看 到 的 不 一 样 。 我 尝试 用 
许多 学 习 算 法 的 数 百 种 变形 来 解决 所 有 给 定 的 问题 ， 而 且 对 各 类 不 同 问 
题 都 会 有 更 好 的 算法 ， 那 么 单个 算法 (我 们 说 的 终极 算法 ) 怎么 可 能 代 
蔡 所 有 这 些 算 法 ? ” 


这 个 问题 的 答案 是 : 的 确 如 此 。 不 用 尝试 多 种 算法 的 数 百 种 变形 ， 
而 只 用 尝试 单个 算法 的 数 百 种 变形 ， 这 不 是 更 轻松 吗 ? 只 要 我 们 弄 明 
白 ， 每 个 算法 中 重要 的 与 不 重要 的 东西 ， 重 要 部 分 的 共同 点 ， 以 及 这 些 
部 分 如 何 进行 互补 ， 那 么 我 们 真 的 可 以 从 这 些 多 种 算法 中 合成 一 个 终极 
算法 。 这 就 是 我 们 在 本 书 中 要 做 的 事情 ， 或 者 说 尽 可 能 要 做 到 的 事情 。 
亲爱 的 读者 ， 也 许 你 在 阅读 本 书 时 ， 会 有 上 自己 的 一 些 观 点 。 


终极 算法 会 复杂 到 什么 程度 ? 它 包 含 几 和 王 行 代码 ? 还 是 几 百 万 行 ? 
我 们 现在 还 不 知道 ， 但 机 器 学 习 有 一 段 可 喜 的 历史 : 简单 的 算法 意外 地 
将 精心 设计 的 算法 打败 了 。 在 《人 工科 学 》 (The Sciences of the 
Artificia) 一 书 的 著名 章节 中 ， 人 工 智 能 先驱 人 物 、 话 贝尔 奖 得 主 赫 伯 
特 :西蒙 (Herbert _ Simon) 让 我 们 想象 蚂蚁 费力 地 罕 过 沙滩 回 家 。 蚂 蚁 
的 路 线 非常 复杂 ， 这 不 是 因为 蚂蚁 本 喘 复杂 ， 而 是 因为 沙滩 这 个 环境 对 
蚂蚁 来 说 意味 着 要 有 扑 很 多 山下， 绕 很 多 卵石 。 如 果 我 们 通过 对 每 条 可 能 
的 路 线 进 行 编 程 ， 模 仿 曲 蚁 ， 那 么 我 们 注定 会 失败 。 同 样 ， 在 机 器 学 习 
中 ， 复 杂 性 存在 于 数据 中 。 终 极 算 法 需要 做 的 就 是 消化 复杂 性 ， 因 此 ， 
如 果 终 极 算 法 变 得 非常 简单 ， 那 么 我 们 也 不 用 感到 居 讶 。 虽 然 人 类 的 手 
很 简单 (四 个 手指 ， 一 个 大 拇指 ) ， 但 是 它 却 可 以 制作 并 使 用 无 数 种 工 
县 。 终 极 算 法 与 算法 的 关系 ， 就 如 同 手指 与 钢笔 、 剑 、 螺 丝 刀 、 又 子 的 


关系 。 


正如 以 赛 亚 : 伯 林 明 确 提出 的 那样 ， 有 些 思想 家 就 是 狐狸 一 一 他 们 
知道 许多 微小 的 事情 ， 而 有 些 思 想 家 则 是 刺 猎 一 一 他 们 知道 一 件 大 事 。 
学 习 算 法 也 是 同样 的 情况 。 我 希望 终极 算法 是 一 只 刺 狂 ， 但 即使 它 是 只 
狐狸 ， 我 们 也 没 法 很 快 抓 住 它 。 当 今 学 习 算法 最 大 的 问题 ， 不 是 它们 数 
量 太 多 ， 而 是 尽管 它们 有 用 ， 却 不 能 完成 我 们 让 它们 做 的 所 有 事情 。 我 
们 利用 机 器 学 习 来 发 现 深刻 的 真理 之 前 ， 得 先 找 到 关于 机 器 学 习 的 深刻 
真理 。 


我 们 正面 临 什么 危机 


假设 你 被 诊断 患 有 癌症 ， 而 且 传 统 疗 法 手术、 化 疗 、 放 疗 ) 都 失 
败 了 ， 那 么 接 下 来 发 生 的 事情 束 会 决定 你 是 活 下 去 ， 还 是 走 到 生命 尽 
头 。 第 一 步 就 是 要 对 肿瘤 进行 基因 排序 。 诸 如 在 剑桥 、 马 陵 诸 蹇 州 的 基 
础 医学 公司 会 为 你 做 这 些 工 作 : 把 肿瘤 样本 邮寄 给 他 们 ， 然 后 他 们 会 发 
给 你 一 个 列表 ， 列 表 是 已 知 的 、 和 癌症 相关 的 基因 变异 。 这 个 步骤 十 分 
有 必要 ， 因 为 每 种 瘤 症 都 不 一 样 ， 单 种 药 不 可 能 治疗 所 有 瘤 症 。 当 包 证 
扩散 到 全 身 时 会 变异 ， 通 过 目 然 选择 ， 最 能 抵抗 你 所 服用 药物 的 变异 细 
胞 最 有 可 能 继续 会 生长 。 对 你 有 用 的 药物 可 能 只 对 5% 的 病人 有 用 ， 或 
者 你 需要 结合 其 他 药物 一 起 服用 ， 这 些 药 可 能 你 之 前 从 未 服用 过 。 也 有 
可 能 要 设计 一 种 新 药 ， 专 门 治疗 你 的 癣 症 ， 或 者 需要 一 系列 的 药 来 避 开 
癌症 的 适应 性 。 这 些 药物 可 能 会 有 副作用 ， 而 且 对 你 来 说 会 致命 ， 但 对 
其 他 很 多 人 来 说 可 能 没有 问题 。 即 使 了 解 你 的 病历 和 冶 症 基因 ， 也 没有 
哪个 医生 可 以 记录 你 所 有 的 病情 ， 以 便 预 测 最 好 的 疗法 。 对 机 强 来 说 ， 
这 是 一 个 完美 的 任务 ， 但 当今 的 学 习 算法 还 无 法 完成 这 个 任务 。 终 极 算 
法 就 是 一 个 完整 包 : 将 终极 算法 应 用 于 大 量 的 患者 及 药物 数据 中 ， 同 时 


参考 从 生物 医学 文献 中 挖掘 的 知识 ， 这 就 是 我 们 将 来 治疗 癌症 的 方法 。 


许多 领域 迫切 需要 通用 学 习 算 法 ， 包 括 与 生死 有 关 的 领域 以 及 普通 
领域 等 。 你 可 以 想象 理想 的 推荐 系统 是 什么 样 的 ， 它 能 推荐 书籍 、 电 影 
以 及 小 玩意 儿 ， 它 们 正 是 你 有 时 间 慢 慢 细 看 时 会 挑选 的 东西 。 亚 号 还 的 
算法 与 这 个 系统 则 大 相 径 许 ， 部 分 是 因为 亚马逊 的 算法 没有 足够 的 数据 
一 一 它 知 道 的 主要 信息 仅仅 是 你 之 前 从 亚马逊 购买 的 东西 一 一 但 如 果 你 
气 狐 了 ， 把 自 出 生 以 来 能 想到 的 东西 都 一 股 脑 地 输 给 它 ， 那 么 它 束 不 知 
道 该 拿 这 些 东 西 怎么 办 了 。 你 如 何 将 生活 的 万 花 简 、 做 过 的 各 类 选择 转 
化 成 连贯 的 画面 ， 用 来 告诉 你 : 你 是 谁 ， 你 想 要 什么 ? 这 是 当今 学 习 算 
法 无 法 理解 的 。 但 有 了 足够 的 数据 ， 终 极 算 法 将 能 够 大 概 了 解 你 以 及 你 
最 好 的 朋友 。 


未 来 某 一 天 ， 每 个 房间 都 会 有 一 个 机 器 人 ， 做 饭 、 铺 床 ， 甚 至 在 父 
母 去 上 班 时 照看 孩子 。 这 一 天 要 多 久 才 来 ， 取 决 于 寻找 终极 算法 的 过 程 
有 多 艰难 。 如 果 我 们 能 做 的 ， 只 是 将 许多 不 同 的 学 习 算 法 结合 起 来 ， 每 
种 算法 只 能 解决 人 工 智 能 的 一 小 部 分 问题 ， 那 么 很 快 我 们 融会 撞 到 复杂 
性 这 埔 增 。 这 种 零碎 的 方法 在 《危险 边缘 》 比 赛 中 奏效 了 ， 但 很 少 有 人 
相信 ， 未 来 的 家 用 机 器 人 束 是 沃 条 的 子孙 。 这 并 不 是 说 终极 算法 会 单 枪 
死 马 破 解 人 工 智 能 的 难题 ， 还 有 许多 伟大 的 工程 要 完成 ， 还 森 束 是 一 个 
很 好 的 开始 。 但 “二 八 原则 ?也 适用 : 终极 算法 会 提供 80% 的 方案 ， 做 
20% 的 工作 量 ， 所 以 这 是 开始 的 最 佳 时 机 。 


终极 算法 对 技术 的 影 不 仅 限 于 人 工 智能 。 通 用 的 学 习 算 法 是 打击 复 
杂 性 怪兽 的 有 力 武器 。 当 今 人 类 建立 起 来 的 很 复杂 的 系统 将 来 会 变 得 简 
单 。 计 算 机 会 在 我 们 更 少 的 辅助 下 做 更 多 的 事情 。 它 们 不 会 不 断 重 复 同 
一 些 错误 ， 而 会 像 人 一 样 ， 从 实践 中 学 习 经 验 。 有 时 ， 就 像 传 次 中 的 管 
家 ,我 们 还 没 说 想 要 什么 ， 计 算 机 整 已 经 先 猜 出 来 了 。 如 果 计 算 机 能 让 
我 们 变 聪 明 ， 那 么 运行 终极 算法 的 计算 机 会 让 我 们 感 党 目 己 就 是 天 才 。 
技术 进步 的 步伐 会 明显 加 快 ， 不 仅仅 在 计算 机 科学 ， 在 许多 不 同 的 领域 


也 会 这 样 。 这 束 反 过 来 推动 经 济 友 展 ， 降 低 贫 困 率 。 终 极 算法 会 辅助 汇 
总 和 传播 知识 ， 这 样 一 个 机 构 的 情报 会 比 其 各 个 分 机 构 的 情报 总 数 还 要 
多 ， 而 不 会 更 少 。 日常 工作 将 自动 化 完成 ， 并 由 更 有 意思 的 工作 来 代 

痊 。 每 项 工作 都 会 比 当今 完成 得 更 好 ， 无 论 这 个 工作 是 由 更 熟练 的 人 、 
计算 机 ， 或 者 通过 二 者 的 结合 来 完成 。 股 市 朋 盘 的 概率 会 越 来 越 低 ， 规 
模 也 会 越 来 越 小。 传感器 会 在 地 球 上 形成 密集 的 网 格 ， 人 类 掌握 的 模型 
会 持续 接收 终极 算法 输出 的 信息 ， 这 样 我 们 就 不 会 旱 目 飞行 了 ， 地 球 的 
情况 会 变 得 越 来 越 好 。 你 的 一 个 模型 会 代表 你 和 世界 进行 谈判 ， 和 其 他 
人 及 实体 模型 玩 复杂 的 游戏 。 因 为 有 了 这 些 ， 我 们 会 更 长 寿 、 更 泣 福 ， 
也 更 多 产 。 


因为 反对 观点 的 潜在 影响 太 大 ， 我 们 应 该 努力 发 明 终 极 算法 ， 哪 怕 
成 功 的 概率 很 低 。 即 使 这 个 过 程 会 很 入 ， 但 找到 一 种 通用 学 习 算 法 却 有 
很 多 能 即刻 感受 到 的 好 处 。 其 中 一 个 就 是 我 们 能 通过 统一 观点 更 好 地 了 
解 机 器 学 习 。 有 太 多 的 商业 决策 是 在 不 了 解 统计 学 的 情况 下 做 出 来 的 ， 
而 统计 学 对 商业 决策 起 着 支撑 作用 。 事 情 本 该 不 是 这 样 的 。 为 了 使 用 一 
项 技术 ， 不 必 掌 握 其 内 部 工作 原理 ， 但 我 们 得 有 关于 它 的 一 个 好 的 概念 
模型 。 我 们 有 必要 知道 如 何 找到 收音 机 上 的 一 个 电台 ， 或 者 懂得 如 何 调 
音量 。 当 下 ， 那 些 不 是 机 器 学 习 专家 的 人 ， 对 学 习 算 法 会 用 来 做 什么 ， 
没有 什么 概念 模型 。 我 们 使 用 谷歌 、 脸 书 时 驱动 的 算法 ， 或 者 最 新 的 分 
析 套 件 ， 有 点 像 一 辆 带 有 有 色 窗 户 的 黑色 豪华 轿车 ， 在 某 个 夜晚 神秘 地 
出 现在 我 们 的 家 门口 : 我 们 该 上 车 吗 ? 这 辆 车 会 带 我 们 去 哪里 ?现在 是 
时 候 坐 在 司机 的 座位 上 了 。 明 白 不 同 的 算法 所 做 的 假设 会 帮助 我 们 选择 
合适 的 算法 用 于 工作 中 ， 而 不 是 从 偶然 出 现 的 算法 中 随机 挑 一 个 用 ， 然 
后 忍受 它 好 几 年 ， 最 后 痛苦 地 领悟 从 一 开始 我 们 就 该 知道 的 东西 。 通 过 
了 解 学 习 算 法 优化 的 内 容 ， 我 们 可 以 肯定 它们 优化 的 是 我 们 关注 的 东 
西 ， 而 不 是 装 在 盒子 里 的 东西 。 也 许 最 重要 的 是 ， 一 旦 我 们 知道 特殊 的 
学 习 算 法 得 出 的 结论 ， 就 会 知道 用 这 些 信息 来 做 什么 一 一 该 相信 什么 ， 
该 如 何 回 报 发 明 者 ， 以 及 下 次 该 如 何 取得 更 好 的 结果 。 有 了 通用 学 习 算 
法 (我 们 在 本 书 中 将 其 作为 概念 模型 ，， 我 们 就 能 在 没有 认 知 负载 的 情 


况 下 ， 把 所 有 这 些 事情 做 完 。 机 器 学 习 本 质 上 古人 简单 的 ， 我 们 只 需 前 挥 
数学 及 行 话 这 些 外 皮 ， 然 后 把 最 里 面 的 “俄罗斯 僚 娃 ”展示 出 来 。 


这 些 好 处 都 可 应 用 于 我 们 的 私人 生活 和 工作 中 。 我 们 在 现代 世界 留 
下 目 己 的 印记 ， 数 据 记录 了 我 们 的 每 一 个 印记 ， 但 我 们 应 该 如 何 充 分 利 
用 这 些 数据 呢 ? 每 个 互动 都 有 两 个 方面 : 这 个 互动 为 你 完成 了 什么 ; 对 
于 刚 和 你 交互 的 系统 ， 它 教会 了 这 个 系统 什么 。 懂 得 这 些 是 在 21 世 纪 过 
上 符 福 生活 的 第 一 步 。 教 授 学 习 算法 ， 这 些 算 法 就 会 为 你 服务 ， 但 首先 
你 得 了 解 它们 。 我 工作 的 哪些 部 分 可 以 交 给 学 习 算 法 来 完成 ， 哪 些 不 可 
以 ? 最 重要 的 是 ， 我 该 如 何 利用 机 器 学 习 把 工作 做 得 更 好 ? 计算 机 是 你 
的 工具 ， 而 不 是 对 手 。 有 了 机 器 学 习 的 辅助 ， 经 理会 变 成 超级 经 理 ， 科 
学 家 会 变 成 超级 科学 家 ， 工 程 师 会 变 成 超级 工程 师 。 未 来 属于 那些 深 深 
懂得 如 何 将 目 己 的 独特 专长 与 算法 的 擅长 结合 起 来 的 人 。 


也 许 终极 算法 就 像 一 个 潘多拉 盒子 ， 最 好 不 要 打开 。 计 算 机 会 奴役 
甚至 消灭 我 们 吗 ? 机 器 学 习 会 变 成 独裁 者 或 者 邪恶 公司 的 侍女 吗 ? 知道 
机 器 学 习 的 发 展 方向 有 助 于 帮助 我 们 了 解 该 担心 什么 、 不 该 担心 什么 、 
应 该 怎么 处 理 问 题 。《 终 结 者 》 中 ， 超 级 人 工 智 能 变 得 有 情感 ， 并 通过 
机 需 人 和 军队 征服 了 人 类 。 这 个 场景 不 会 和 我 们 将 在 本 书 中 谈 到 的 学 习 算 
方法 一 起 发 生 。 因 为 计算 机 会 学 习 ， 并 不 意味 看 它们 可 以 魔法 山地 实现 
目 己 的 愿望 。 学 习 算 法 学 着 完成 我 们 为 它们 设 定 的 目标 ， 它 们 不 会 改变 
这 些 目标 。 我 们 要 担心 的 是 ， 它 们 服务 我 们 的 方法 可 能 会 对 我 们 有 害 ， 
而 不 是 有 益 。 因 为 它们 知道 的 东西 不 多 ， 改 善 的 方法 就 是 教 它 们 更 好 的 
方法 。 


很 多 时 候 ， 我 们 得 考虑 ， 如 果 终 极 算法 落 入 坏人 手中 ， 它 会 做 些 什 
么 。 第 一 道 防线 就 是 确保 好 人 第 一 个 拿 到 它 ， 或 者 如 果 它 不 明白 谁 是 好 
人 ， 就 要 保证 它 是 开源 的 。 第 二 道 防线 就 是 要 意识 到 ， 无 论 学 习 算 法 有 
多 好 用 ， 也 只 是 在 获得 数据 时 好 用 。 控 制 了 数据 的 人 也 就 控制 了 学 习 算 
法 。 你 对 数字 化 生活 的 反应 ， 不 应 该 是 退回 到 木屋 中 一 一 树林 里 也 净 满 


了 传感器 ， 而 应 努力 拿 到 对 你 来 说 重要 的 数据 。 能 有 推荐 系统 为 你 找到 
想 要 的 东西 ， 并 把 东西 带 给 你 ， 这 样 很 好 ， 没 有 这 些 系统 你 会 感到 失 

沙 。 它 们 带 给 你 的 应 该 是 你 想 要 的 东西 ， 而 不 是 其 他 人 想 让 你 拥有 的 。 
控制 好 数据 ， 控 制 好 算法 掌握 的 模型 的 所 有 权 ， 这 就 是 21 世 纪 战 争 的 内 
容 ， 这 些 战争 可 能 会 发 生 在 政府 、 企 业 、 工 会 以 及 个 人 之 间 。 为 了 共同 
利益 ， 你 也 有 道德 义务 来 分 享 数据 。 只 依靠 机 器 学 习 不 能 治愈 癌症 ， 依 
靠 癌症 病人 却 可 以 做 到 这 一 点 ， 方 法 就 是 为 了 将 来 的 病人 ， 分 享 自己 的 
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新 的 万 有 理论 


当今 的 科学 已 经 被 彻底 四 分 五 裂 ， 就 像 巴 别 塔 中 的 亚 社会 都 说 痢 目 
己 的 但 语 ， 只 能 看 到 相 邻 的 几 个 亚 社 会 。 终 极 算法 会 给 出 所 有 学 科 的 统 
一 思想 ， 并 有 潜力 提出 一 套 新 的 万 有 理论 。 乍 一 看 ， 这 个 说 法 可 能 会 有 
点 奇怪 。 机 器 学 习 所 做 的 ， 就 是 从 数据 中 引出 理论 。 终 极 算法 本 号 如 何 
能 友 展 为 一 套 理 论 ? 难道 弦 理 论 是 万 有 理论 ， 而 终极 算法 和 万 有 理论 没 
有 任何 相似 点 ? 


为 了 回答 这 些 问题 ， 我 们 得 首先 明白 什么 是 科学 理论 ， 什 么 不 是 。 
理论 是 关于 世界 是 什么 的 一 系列 约束 条 件 ， 而 不 是 对 世界 的 完整 描述 。 
为 了 获得 对 世界 的 完整 描述 ， 你 必须 将 理论 和 数据 结合 起 来 。 例 如 ， 想 
想 牛 顿 第 二 定律 。 定 律 说 明 力 等 于 质量 与 加 速度 的 乘积 ， 或 者 写成 
F=ma。 定 律 并 没有 说 明 是 哪个 东西 的 质量 或 者 加 速度 ， 或 者 作用 力 是 
什么 。 定 律 只 要 求 ， 如 宁 菏 物体 的 质量 是 m， 加 速度 是 ao， 那么 作用 在 
它 之 上 的 所 有 力 的 总 和 就 肯定 是 ma。 虽 然 该 定律 排除 了 宇宙 的 某 些 自 
由 度 ， 但 没有 排除 所 有 。 所 有 其 他 物理 理论 也 都 如 此 ， 包 括 相 对 论 、 量 
子 力学 以 及 弦 理 论 ， 这 些 理论 其 实 都 是 对 牛顿 定律 的 完善 。 


理论 的 强大 之 处 在 于 它 简 化 了 我 们 对 世界 的 描述 。 有 了 牛顿 定律 ， 
我 们 首先 只 需 知 道 茶 个 时 间 点 所 有 物体 的 质量 、 状 态 、 速 度 ， 其 次 束 是 
所 有 时 段 的 状态 及 速度 。 和 凭借 过 去 、 未 来 宇宙 历史 中 可 区 分 时 刻 的 数量 
这 样 一 个 因素 ， 牛 顿 定律 概括 了 我 们 对 世界 的 描述 。 太 了 不 起 了 ! 当 
然 ， 牛 顿 定 律 也 仅仅 是 接近 准确 的 物理 定律 ， 因 此 让 我 们 用 弱 理 论 来 蔡 
代 它 ， 同 时 忽略 纺 理 论 是 否 永远 证 实 有 效 的 问题 。 我 们 能 做 得 更 好 吗 ? 
可 以 ， 有 以 下 两 个 原因 。 


第 一 ， 实 际 上 ， 我 们 没有 足够 的 数据 来 完全 确定 世界 ， 甚 至 忽略 不 
确定 性 原则 ， 准 确 知道 世界 上 所 有 粒子 茶 个 时 间 点 的 状态 和 速度 ， 也 远 
远 做 不 到 。 因 为 物理 定律 是 混沌 的 ， 不 确定 性 随时 会 混杂 进来 ， 而 且 在 
短 时 间 内 能 确定 的 东西 太 少 。 为 了 准确 描述 这 个 世界 ， 每 陋 一 段 时 间 ， 
我 们 就 需要 一 批 新 数据 。 实 际 上 ， 物 理 定律 只 告诉 我 们 局 部 会 发 生 的 事 
情 。 这 一 点 大 大 辣 减 了 它们 的 力量 。 


第 二 ， 虽 然 我 们 在 茶 个 时 间 点 拥有 关于 世界 的 完整 知识 ， 物 理 定 律 
还 是 不 能 让 我 们 确定 这 个 世界 的 过 去 和 未 来 。 这 是 因为 ， 确 定 世 界 的 过 
去 和 未 来 所 需 的 全 部 计算 量 ， 对 于 能 想象 得 出 的 计算 机 来 说 ， 超 出 了 它 
们 的 能 力 范 围 。 实 际 上 ， 为 了 完善 魔法 宇宙 ， 我 们 需要 另外 一 个 一 模 一 
样 的 宇宙 。 这 也 是 为 什么 弦 理 论 多 数 情况 下 在 物理 学 之 外 束 变 得 无 关 紧 
要 了 。 我 们 在 生物 学 、 心 理学 、 社 会 学 或 者 政治 学 中 的 理论 ， 并 不 是 由 
物理 定律 推理 得 来 的 ， 这 些 理论 得 从 零 开 始 构建 。 我 们 假定 ， 当 这 些 理 
论 应 用 到 细胞 、 大 脑 、 社 会 中 时 ， 它 们 就 是 物理 定律 对 此 所 做 预测 的 近 
似 理 论 ， 但 我 们 无 法 知道 。 


不 像 特定 领域 的 理论 只 在 该 领域 中 才 有 权威 ， 终 极 算法 在 所 有 领域 
中 都 有 权威 。 在 X 领 域 中 ， 终 极 算法 不 如 X 领 域 的 主流 理论 有 权威 ， 却 
在 所 有 领域 中 比 该 主流 理论 有 权威 一 一 当 我 们 考虑 到 整个 世界 时 一 一 终 
极 算法 普 裔 比 所 有 其 他 理论 有 权威 得 多 。 终 极 算法 是 所 有 理论 的 起 源 。 
为 了 获得 X 理 论 ， 我 们 要 给 终极 算法 添加 的 束 是 推导 X 理 论 所 需要 的 最 


少量 的 数据 (在 物理 学 中 ， 需 要 添加 的 仅仅 是 大 约 几 百 个 重要 实验 的 结 
果 ) 。 结 果 就 是 ， 在 同样 的 情况 下 ， 终 极 算法 很 有 可 能 成 为 万 有 理论 的 
最 佳 出 发 点 。 请 史 带 分 霍金 原 访 ， 和 弦 理 论 相 比 ， 终 极 算法 最 后 会 千 
诉 我 们 更 多 关于 上 和 瑚 思考 的 东西 。 


有 些 人 可 能 会 说 ， 寻 找 通 用 学 习 算 法 就 是 一 种 奶 求 虚 采 心 的 表现 。 
其 实 梦 想 并 不 是 退 求 虚荣 心 ， 在 魔法 石 以 及 永 动机 并 屑 作战 下 ， 也 许 终 
极 算法 在 众多 伟大 的 幻想 中 会 代 丛 虚 且 心 的 位 置 。 寻 找 终 极 算法 更 像 测 
定海 上 的 经 度 ， 人 们 一 开始 认为 这 太 困 难 ， 于 是 放弃 了 ， 直 到 一 个 坂 独 
的 天 才 解 决 了 这 个 问题 。 寻 找 终极 算法 更 有 可 能 就 是 一 代 一 代 人 的 任 
务 ， 就 像 天 主教 党 是 由 一 块 块 石头 砌 成 的 一 样 。 找 到 终极 算法 的 唯一 方 
法 就 是 ， 早 早 动 映 踏 上 旅途 。 


未 达标 准 的 终极 算法 候选 项 


那么 ， 如 果 终 极 算法 存在 ， 它 是 什么 ? 看 起 来 很 明显 的 一 种 候选 项 
就 是 记忆 : 只 要 记 住 你 见 过 的 所 有 东西 ， 过 一 段 时 间 ， 你 就 好 像 见 过 世 
上 的 一 切 东西 ， 所 以 也 就 无 所 不 知 了 。 这 里 的 问题 是 ， 正 如 赫 拉 克利 特 
说 的 那样 ， 你 无 法 两 次 踏 入 同一 条 河流 。 世 上 的 东西 比 你 能 看 到 的 多 得 
多 。 无论 你 观察 过 多 少 杂 雪花 ， 下 一 杂 还 是 会 不 一 样 。 即 使 宇宙 大 爆炸 
时 你 在 场 ， 但 从 那 以 后 无 论 在 哪里 ， 对 于 未 来 你 可 能 看 到 的 事物 ， 你 现 
在 看 到 的 也 只 是 一 小 部 分 。 如 果 你 目睹 一 万 年 前 地 球 上 的 生命 ， 也 不 会 
对 你 未 来 将 看 到 的 东西 有 什么 影响 。 在 某 城市 长 大 的 人 搬 到 另外 一 个 城 
市 ， 他 不 会 陷入 瘫痪 ， 但 只 会 记忆 的 机 器 人 就 会 陷入 瘫痪 。 此 外 ， 知 识 
不 仅 是 事实 清单 ， 知 识 的 范围 很 广 ， 而 且 还 有 结构 。“* 人 固有 一 死 " 比 70 
亿 条 死亡 声明 要 简洁 得 多 。 记 忆 无 法 像 终 极 算法 那样 让 我 们 做 到 这 些 。 


终极 算法 的 另外 一 个 候选 项 就 是 微 处 理 器 。 计 算 机 里 的 微 处 理 器 可 


以 看 作 单 一 算法 ， 其 任务 是 执行 其 他 算法 ， 就 像 通 用 的 图 灵机 那样 。 而 
且 微 处 理 咒 可 以 运行 一 切 可 以 想得到 的 算法 ， 这 由 它 的 内 存 和 速度 上 限 
决定 。 实 际 上 ， 对 一 台 微 处 理 器 来 说 ， 一 种 算法 也 只 是 另外 一 种 数据 。 
这 里 的 问题 是 ， 如 果 微 处 理 器 单独 工作 ， 那 么 它 什 么 也 不 会 干 ， 它 只 会 
竺 在 那儿 ， 一 整 天 什么 也 干 不 了 。 它 运行 的 算法 从 哪里 来 ? 如 果 这 些 算 
法 由 人 类 程序 员 来 编码 ， 那 么 束 不 会 涉及 任何 学 习 行 为 。 即 便 如 此 ， 人 
们 还 是 会 有 一 种 感觉 ， 认 为 微 处 理 避 是 终极 算法 的 完美 模拟 。 微 处 理 絮 
不 是 运行 一 切 特 殊 算 法 最 好 的 硬件 ， 最 好 的 便 件 应 该 是 特定 用 途 集 成 电 
路 ， 专 为 那 种 算法 而 精确 设计 。 我 们 却 把 微 处 理 絮 几乎 用 于 所 有 应 用 

中 ， 因 为 即使 它 效 率 较 低 ， 但 却 非 党 灵活。 如 果 我 们 得 为 每 个 新 的 应 用 
构建 一 个 特定 用 途 集成 电路 ， 那 么 信息 革命 也 绝 不 会 发 生 。 同 样 ， 终 极 
算法 也 不 是 学 习 一 切 特 定 知 识 最 好 的 算法 ， 最 好 的 算法 应 该 是 已 经 编码 
了 大 多 数 知 识 的 算法 《或 者 说 所 有 知识 ， 这 样 数据 就 变 得 多 余 ) 。 问 题 
却 在 于 从 数据 中 得 出 知识 ， 因 为 这 样 做 更 简单 ， 成 本 也 更 低 ， 所 以 学 习 
算法 越 通 用 越 好 。 


一 个 更 加 极端 的 候选 项 就 是 普通 的 “或 非 门 ?>: 这 是 一 个 逻辑 开关 ， 

只 有 输入 的 是 两 个 0 时 ， 才 会 输出 1。 本 书 前 面 提 到 ， 计 算 机 是 由 晶体管 
组 成 的 逻辑 门 构成 的 ， 所 有 的 运算 都 可 以 简化 为 " 且 ” 或 关 非 ? 馆 辑 门 的 
结合 。“ 或 非 门 ”只 是 一 个 “或 ” 门 后 面 接着 一 个 “ 非 ” 门 : 对 于 分 离 

(“或 ”) 的 否定 ， 就 像 * 只 要 我 不 挨 饿 或 生病 ， 我 就 开心 "这 句 话 的 意思 
一 样 。“ 且 或“ 非 ”都 可 以 通过 “或 非 门 ”得 以 执行 ， 所 以 “或 非 门 ”可 以 
做 所 有 事情 ， 而 实际 上 这 也 是 一 些微 型 处 理 器 使 用 的 东西 。 那 么 为 什么 
或 非 门 不 是 终极 算法 ?当然 “或 非 门 ”的 简洁 无 与 伦比 ， 但 遗憾 的 

古 , “或 非 门 ?不 是 终极 算法 ， 就 像 乐 高 砖 不 是 万 能 玩具 一 样 。 对 于 玩具 
来 次 , “或 非 门 ?当然 可 以 是 一 种 万 能 建筑 材料 ， 但 一 堆 乐 高 砖 不 会 目 发 
地 将 自己 组 装 成 玩具 。 这 个 道理 同样 适用 于 其 他 简单 的 运算 格式 ， 如 

Petri 网 (Petri Net 是 对 离散 并 行 系统 的 数学 表示 ) 或 细胞 目 动机 。 


这 里 将 谈 到 更 为 复杂 的 候选 项 。 那 些 所 有 可 以 回应 搜索 的 民 好 的 数 


据 引 擎 ， 或 者 统计 软件 包 里 的 简单 算法 怎么 样 ， 可 以 代 符 终极 算法 吗 ? 
它们 还 不 足够 吗 ? 这 个 数据 引擎 和 简单 算法 是 更 大 的 乐高 砖 ， 但 也 仅仅 
征 砖 。 数 据 引 擎 无 法 发 现 新 东西 ， 只 能 告诉 你 它 知道 的 东西 。 即 使 数据 
库 中 所 有 的 人 都 终究 会 死 ， 它 也 不 会 将 人 会 死 的 概率 推广 到 其 他 人 号 上 
数据 工程 师 看 到 这 一 点 会 大 吃 一 惊 ) 。 很 多 数据 只 是 和 验证 假设 有 

关 ， 但 总 得 有 人 先 提出 假设 。 统 计 软件 包 可 以 做 线性 回归 以 及 进行 其 他 
简单 的 程序 ， 但 是 做 这 些 对 它们 能 学 的 东西 来 将， 限制 很 低 ， 无 论 你 提 
供给 它们 多 少数 据 。 虽 然 更 好 的 软件 包 会 跳 过 统计 学 和 机 器 学 习 的 灰色 
地 带 ， 但 它们 还 是 无 法 发 现 许 多 种 知识 。 


好 了 ， 是 时 候 坦 白 了 : 终极 算法 就 是 等 式 UCO=0。 这 个 等 式 不 仅 适 
合 做 T 恤 图 案 ， 还 适合 做 邮票 图 案 。 啊 ? UCO=0 表 达 的 是 某 未 知 
数 X〈 可 能 很 复杂 〉 的 某 函 数 U( 可 能 很 复杂 〉 等 于 0。 每 个 等 式 都 可 以 
简化 为 这 种 形式 ， 例 如 ，F=ma 等 于 F-ma=0， 那 么 如 果 你 把 F-ma 当 作 下 
的 一 个 函数 U， 则 U(F)=0。 一 般 情况 ，X 可 以 是 所 有 输入 的 数据 ，U 可 以 
是 所 有 算法 ， 所 以 可 以 肯定 的 是 ， 终 极 算法 和 这 个 函数 同样 通用 ， 那 么 
这 个 函数 就 一 定 是 终极 算法 了 。 当 然 ， 我 只 是 开玩笑 ， 这 个 函数 不 是 终 
极 算 法 ， 但 它 指出 了 机 器 学 习 中 的 真正 危机 : 想到 一 个 非常 通用 的 学 习 
算法 ， 里 面 却 没有 足够 的 东西 可 以 拿 来 用 。 


那么 为 了 可 以 拿 来 用 ， 一 种 学 习 算 法 至 少 要 有 多 少 内 容 呢 ?物理 定 
律 够 了 吗 ? 毕竟 ， 世 界 上 的 一 切 都 遵守 物理 定律 〈 我 们 相信 和 是 这 样 
的 ) ， 而 且 这 些 定律 引出 进化 论 ， 而 通过 进化 论 ， 又 引出 与 大 脑 相 关 的 
学 科 。 那 么 也 许 终极 算法 就 隐藏 在 物理 定律 中 ， 如 果 是 的 话 ， 我 们 就 要 
把 它 找 出 来 。 把 数据 输入 到 物理 定律 中 ， 不 会 有 新 的 定律 产生 。 我 们 可 
以 这 样 思考 : 也 许 菏 个 领域 的 主 理论 就 是 物理 定律 ， 只 不 过 是 将 该 物理 
定律 编 成 对 该 领域 研究 来 说 更 方便 的 形式 。 如 果 古 这 样 ， 我 们 就 需要 一 
种 算法 ， 可 以 找到 连接 该 领域 数据 与 该 领域 理论 的 捷径 ， 而 不 知道 物理 
定律 能 否 在 其 中 起 作用 。 另 外 一 个 问题 就 是 ， 如 末 物 理 定 律 不 一 样 ， 终 
极 算 法 还 是 有 可 能 在 许多 例子 中 找到 它们 。 数 学 家 喜欢 说 ， 上 和 融 可 以 违 


肥 物 理 定律 ， 但 他 永远 不 能 违抗 逻辑 规律 。 也 许 的 确 如 此 ， 但 逻辑 规律 
征用 来 演绎 的 。 除 了 归纳 ， 我 们 需要 的 是 对 等 的 东西 。 


机 此 学 习 的 五 大 竺 派 


当然 ， 我 们 不 必 从 零 开始 寻找 终极 算法 ， 而 有 几 十 年 的 机 器 学 习 研 
完 可 以 利用 。 地 球 上 最 了 腾 明 的 那些 人 已经 把 他 们 的 毕生 页 献 给 发 明 学 习 
算法 ， 而 有 些 人 甚至 声明 ， 他 们 手 上 已 经 有 通用 的 学 习 算 法 。 我 们 会 站 
在 这 些 巨人 的 惧 膀 上 ， 但 对 这 样 的 声明 持 保 守 态 度 。 这 样 的 声明 会 引起 
相关 问题 : 出 现 的 一 种 和 终极 算法 相似 的 算法 ， 只 是 改变 了 人 参数， 除了 
数据 还 有 最 小 量 输 入 信息 ， 可 以 像 人 类 一 样 很 好 地 看 懂 视 频 和 文本 ， 并 
在 生物 学 、 人 类 学 以 及 其 他 学 科 中 有 重大 发 现 ， 如 果 是 这 样 ， 我 们 怎么 
知道 已 经 找到 了 终极 算法 ? 很 明显 ， 如 果 按 照 这 个 标准 ， 即 使 终极 算法 
真 的 已 经 存在 ， 它 也 没 法 证 明 自 己 就 是 终极 算法 。 


关键 是 ， 终 极 算 法 不 需要 在 遇 到 每 个 新 问题 时 ， 都 从 零 开 始 。 这 个 
标准 对 所 有 算法 来 说 都 太 高 了 ， 而 且 它 也 不 像 人 类 所 做 的 那样 。 例 如 ， 
语言 无 法 存在 于 真空 中 ; 如 果 没 有 该 学 科 的 相关 知识 ， 我 们 就 无 法 理解 
一 门 学 科 。 因 此 ， 当 学 习 阅 读 时 ， 终 极 算法 可 以 依靠 之 前 所 学 的 东西 来 
看 、 听 ， 以 及 控制 一 个 机 器 人 。 同 样 的 道理 ， 科 学 家 不 会 只 是 盲目 地 将 
模型 和 数据 进行 配对 ， 他 们 会 利用 目 己 在 该 领域 的 知识 来 解决 这 个 问 
题 。 因 此 ， 当 在 生物 学 领域 有 所 发 现时 ， 终 极 算 法 会 首先 阅读 它 需 要 的 
生物 学 知识 ， 依 靠 的 是 之 前 就 学 会 的 阅读 技巧 。 终 极 算法 不 只 是 被 动 地 
消耗 知识 ， 它 可 以 和 周围 的 环境 进行 互动 ， 然 后 积极 寻找 它 想 要 的 数 
据 ， 束 像 机 器 人 科学 家 “亚当 一样， 或 者 像 所 有 探索 世界 的 孩子 一 样 。 


我 们 寻找 终极 算法 的 过 程 是 复杂 且 活跃 的 ， 因 为 在 机 堪 学 习 领 域 存 
在 不 同 思想 的 学 派 ， 主 要 学 派 包 括 符 写 学 派 、 联 结 学 派 、 进 化 学 派 、 贝 


叶 斯 学 派 、 类 推 学 派 。 每 个 学 派 都 有 其 核心 理念 以 及 其 关注 的 特定 问 
题 。 在 综合 几 个 学 派 理念 的 基础 上 ， 每 个 学 派 都 已 经 找到 该 问题 的 解决 
方法 ， 而 且 有 体现 本 学 派 的 主 算法 。 


对 于 符号 学 派 来 说 ， 所 有 的 信息 都 可 以 简化 为 操作 符号 ， 就 像 数 学 
家 那样 ， 为 了 解 方程 ， 会 用 其 他 表达 式 来 代 蔡 本 来 的 表达 式 。 符 号 学 者 
明白 你 不 能 从 零 开 始 学 习 : 除了 数据 ， 你 还 需要 一 些 原始 的 知识 。 他 们 
己 经 弄 明白 ， 如 何 把 先前 存在 的 知识 并 入 学 习 中 ， 如 何 结合 动态 的 知识 
来 解决 新 问题。 他们 的 主 算法 是 逆 同 演绎 ， 逆 回 演 绎 致力 于 卉 明日 ， 为 
了 使 演绎 进展 顺利 ， 哪 些 知识 被 省 略 了 ， 然 后 弄 明 日 是 什么 让 主 算法 变 
得 越 来 越 综合 。 


对 于 联结 学 派 来 说 ， 学 习 就 是 大 脑 所 做 的 事情 ， 因 此 我 们 要 做 的 束 
征 对 大 脑 进行 逆 加 演绎。 大 脑 通 过 调整 神经 元 之 间 连 接 的 强度 来 进行 学 
习 ， 关 键 问 题 是 找到 哪些 连接 导致 了 误 兰 ， 以 及 如 何 纠 正 这 些 误 着 。 联 
结 学 派 的 主 算法 是 反 向 传播 学 习 算法 ， 该 算法 将 系统 的 输出 与 想 要 的 结 
果 相 比较 ， 然 后 连续 一 层 一 层 地 改变 神经 元 之 间 的 连接 ， 目 的 是 为 了 使 
输出 的 东西 接近 想 要 的 东西 。 


进化 学 派 认为 ， 所 有 形式 的 学 习 都 源 于 目 然 选择 。 如 果 目 然 选择 造 
就 我 们 ， 那 么 它 束 可 以 造 束 一 切 ， 我 们 要 做 的 ， 就 是 在 计算 机 上 对 它 进 
行 模仿 。 进 化 主义 解决 的 关键 问题 是 学 习 结构 : 不 只 是 像 反 疝 传播 那样 
调整 参数 ， 它 还 创造 大 脑 ， 用 来 对 参数 进行 微调 。 进 化 学 派 的 主 算法 是 
基因 编程 ， 和 自然 使 有 机 体 交 配 和 进化 那样 ， 基 因 编 程 也 对 计算 机 程序 
进行 配对 和 提升 。 


贝 叶 斯 学 派 最 关注 的 问题 是 不 确定 性 。 所 有 掌握 的 知识 都 有 不 确定 
性 ， 而 且 和 学习 知识 的 过 程 也 是 一 种 不 确定 的 推理 形式 。 那 么 问题 束 变 
成 ， 在 不 破坏 信息 的 情况 下 ， 如 何 处 理 嘲 杂 、 不 完整 甚至 自 相 矛盾 的 信 
恩 。 解 决 的 办 法 就 是 运用 概率 推理 ， 而 主 算法 就 是 贝 叶 斯 定理 及 其 衍生 
定理 。 贝 叶 斯 定理 告诉 我 们 ， 如 何 将 新 的 证 据 并 入 我 们 的 信仰 中 ， 而 概 


率 推理 算法 尽 可 能 有 效 地 做 到 这 一 点 。 


对 于 类 推 学 派 来 说 ， 学 习 的 关键 就 是 要 在 不 同 场 景 中 认识 到 相似 
性 ， 然 后 由 此 推导 出 其 他 相似 性 。 如 果 两 个 病人 有 相似 的 症状 ， 那 么 也 
许 他 们 患 有 相同 的 疾病 。 问 题 的 关键 是 ， 如 何 判 断 两 个 事物 的 相似 程 
度 。 类 推 学 派 的 主 算法 是 支持 癌 量 机 ， 主 算法 找 出 要 记忆 的 经 历 ， 以 及 
弄 明 白 如 何 将 这 些 经 历 结合 起 来 ， 用 来 做 新 的 预测 。 


每 个 学 派对 其 中 心 问题 的 解决 方法 都 是 一 个 辉 焊 、 来 之 不 易 的 进 
步 ， 但 真正 的 终极 算法 应 该 把 5 个 学 派 的 5 个 问题 都 解决 ， 而 不 是 只 解决 
一 个 。 例 如 ， 为 了 治 人 鳃 癌症， 我 们 要 了 人 解 细 胞 的 代谢 网 络 ， 哪些 基因 调 
节 哪 些 别 的 基因 ， 由 此 产生 的 集 白 质 控 制 哪些 化 学 反应 ， 以 及 将 新 微粒 
加 入 混合 物 中 将 会 对 网 络 产生 什么 影响 。 从 零 开始 努力 学 习 这 些 东西 显 
得 有 扣 患 苇 ， 因 为 这 种 做 法 忽略 了 过 去 几 十 年 生物 学 家 苗 心 积累 的 知 
识 。 符 号 学 派 懂得 如 何 将 这 些 知 识 与 来 目 DNA 测 序 仪 、 基 因 表 达 心 片 等 
的 数据 结合 起 来 ， 并 得 出 结果 。 只 有 知识 或 数据 ， 你 得 不 出 这 些 结 
可 是 我 们 通过 逆向 演绎 得 到 的 知识 都 是 纯 定性 的 。 我 们 要 了 解 的 不 仅 是 
谁 和 谁 交 互 ， 还 有 可 以 交互 的 程度 ， 以 及 反问 传播 如 何 做 到 这 些 。 即 便 
如 此 ， 如 果 没 有 茶 个 基础 结构 ， 逆 向 演绎 和 反问 传播 将 会 迷失 在 太空 
中 。 有 了 这 个 基础 结构 ， 它 们 找到 的 交互 和 参数 才能 构成 整体 。 基 因 编 
程 可 以 找到 这 个 基础 结构 。 这 时 ， 有 了 新 陈 代谢 的 完整 知识 ， 以 及 给 定 
病人 的 相关 数据 ， 我 们 就 可 以 为 他 找到 治疗 方法 。 但 实际 上 ， 我 们 拥有 
的 知识 总 是 非常 不 完整 的 ， 甚 至 在 有 些 地 方 会 出 错 。 即 使 如 此 ， 我 们 还 
征 要 继续 进行 ， 这 也 惑 是 概率 推理 的 目标 。 在 情形 最 困难 的 例子 中 ， 病 
人 的 癌症 看 起 来 与 之 前 的 癌症 病例 有 很 大 不 同 ， 而 我 们 掌握 的 知识 对 此 
也 束手无策 。 基 于 相似 性 的 算法 会 扭转 大 局 ， 方 法 就 是 从 看 似 有 很 大 差 
别 的 情形 中 找到 相似 点 ， 把 重点 放 在 相似 点 上 ， 然 后 忽略 其 他 不 同上 后。 


本 书 将 综合 出 一 个 拥有 所 有 这 些 功能 的 终极 算法 : 


我 们 对 终极 算法 的 退 寻 之 旅 将 让 我 们 了 解 这 5 个 学 派 。 学 派 与 学 派 


相遇 、 谈 判 、 冲 突 的 地 方 ， 也 是 这 个 旅程 最 艰难 的 部 分 。 每 个 学 派 都 有 
目 己 不 同 的 观点， 我 们 必须 将 这 些 观点 集中 起 来 。 机 器 学 习 算 法 和 所 有 
科学 家 一 样 ， 类 似 育 人 和 大 象 : 有 个 寡人 措 到 象 蜡 ， 束 以 为 那 是 蛇 ， 为 
个 盲人 靠 着 象 腿 ， 以 为 那 是 树 ， 还 有 一 个 盲人 措 到 象牙 ， 以 为 那 是 公 
牛 。 我 们 的 目标 是 ， 摸 清楚 每 个 部 位 ， 而 不 是 过 早 下 结论 。 一 旦 摸 到 所 
有 部 位 ， 我 们 就 努力 拼 出 整个 大 象 的 形象 。 将 所 有 信息 集中 起 来 变 成 解 
决 方案 的 方法 ， 并 不 是 很 容易 找到 ， 有 些 人 其 至 说 不 可 能 找到 ， 但 这 就 
古 我 们 要 做 的 事情 。 


权衡 
证 据 


映射 到 新 的 
情形 中 


图 2 -1 


我 们 要 找到 的 算法 还 不 是 终极 算法 ， 原 因 我 们 在 下 文 会 提 到 ， 但 这 
经 是 所 有 人 能 达到 的 、 最 接近 终极 算法 的 水 平 了 。 我 们 会 一 直 积 聚 财 
， 让 大 富 了 蚂 们 嫉妒 。 即 便 如 此 ， 本 书 仪 仪 是 终极 算法 传奇 的 第 一 部 
。 第 二 部 分 的 主角 就 是 你 一 一 亲爱 的 读者 。 你 的 使 命 〈 如 果 你 愿意 接 
受 ) 就 是 完成 寻找 终极 算法 之 旅 ， 然 后 把 战利品 拿 回 来 。 在 第 一 部 分 我 
将 是 你 里 微 的 导游 ， 从 这 里 出 发 ， 走 同 已 知 的 尽头 。 你 可 能 抗议 说 目 己 
懂 的 不 够 多 ， 或 者 算法 不 是 你 的 长 处 。 不 要 害怕 ! 计算 机 科学 还 年 轻 ， 
而 且 不 像 物理 学 或 生物 学 那样 ， 要 发 起 一 场 章 命 ， 你 并 不 需要 博士 学 位 
(可 以 去 间 间 比尔 : 盖 次 、 谢 尔 蓄 布 林 、 拉 里 - 佩 奇 、 马 克 : 扎 克 伯 

区 ) 。 洞 察 力 和 坚持 才 古 最 重要 的 东西 。 


富 
分 


你 准备 好 了 吗 ? 我 们 的 旅程 由 拜访 符号 学 派 开 始 ， 这 个 学 派 的 历史 
最 漫长 。 


1. NP 完全 问题 (non-determinstic polynomial completeness) ， 即 多 项 式 复 杂 程 度 的 非 确 
定性 问题 。 编者 注 


全 一 一 一 


和 二 早 
符号 和 学派 : 休 谍 的 归纳 问题 


你 是 理性 主义 者 还 是 经 验 主义 者 ? 


理性 主义 者 认为 ， 感 官 会 欺骗 人 ， 而 他 辑 推理 是 通 往 知识 的 唯一 可 
靠 的 道路 。 经 验 主义 者 认为 所 有 推理 都 是 不 可 靠 的 ， 知 识 必 须 来 源 于 观 
察 及 实验 。 法 国人 是 理性 主义 者 ， 伙 格 鲁 - 撒 克 逊 人 法 国人 就 这 样 称 
呼 他 们 ) 是 经 验 主义 者 。 评 论 员 、 律 师 、 数 学 家 是 理性 主义 者 ， 记 者 、 
医生 、 科 学 家 是 经 验 主义 者 。《 女 作家 与 谋杀 案 》 是 关于 犯罪 的 电视 
剧 ， 属 于 理性 主义 ，《 犯 罪 现 场 调 查 》 则 属于 经 验 主义 。 在 计算 机 科学 
领域 ， 理 论 家 和 知识 工程 师 属于 理性 主义 者 ， 黑 客 和 计算 机 学 习 者 属于 
经 验 主义 者 。 


理性 主义 者 豆 欢 在 迈 出 第 一 步 前 ， 就 提前 规划 好 一 切 。 经 验 主义 者 
喜欢 尝试 新 事物 ， 然 后 看 看 结果 会 怎样 。 我 不 知道 理性 主义 和 经 验 主 义 
征 否 都 有 专门 的 基因 ， 但 我 看 了 看 自己 的 计算 机 科学 家 同事 ， 经 过 反复 
观察 ， 发 现 理性 主义 者 和 经 验 主义 者 的 个 性 特点 几乎 一 样 : 有 些 人 以 理 
性 主义 为 核心 ， 而 且 绝 不 会 改变 ; 其 他 人 则 是 彻底 的 经 验 主义 者 ， 未 来 
也 不 会 改变 。 这 两 方 可 以 彼此 进行 对 话 ， 而 且 有 时 候 还 可 以 利用 彼此 的 
定论 ， 但 他 们 对 役 此 了 解 仅 限 这 么 多 。 实 际 上 ， 每 方 都 会 认为 对 方 做 什 


么 并 不 重要 ， 而 且 也 没什么 意思 。 


目 从 智 人 的 黎明 到 来 ， 理 性 主义 和 经 验 主义 也 许 就 已 经 出 现 。 在 去 
狩猎 之 前 ， 原 始 人 鲍 动 会 花 很 长 时 间 坐 在 洞 里 ， 思 考 要 去 哪里 打猎 。 同 
时 ， 穴 居 女 人 爱丽 丝 正 在 外 面 系统 地 调查 领土 。 这 两 种 方法 我 们 都 还 在 
使 用 ， 保 守 地 说 这 两 种 方法 没有 哪个 更 好 。 你 也 许 会 认为 ， 机 器 学 习 了 就 
征 经 验 主义 最 终 胜利 的 产物 ， 但 我 们 很 快 会 看 到 ， 真 理 总 是 比 我 们 想 的 
更 加 微妙 。 


理性 主义 与 经 验 主义 是 哲学 家 最 热衷 讨论 的 问题 。 相 拉 图 是 早期 的 
理性 主义 者 ， 而 亚 里 士 多 德 是 早期 的 经 验 主义 者 。 关 于 这 个 问题 的 辩 
论 ， 真 正 开 始 于 局 壹 运动 时 期 ， 每 方 有 三 位 伟大 的 思想 家 : 华 卡 儿 、 斯 
宾 话 钞 、 莱 布 尼 淆 是 理性 主义 的 代表 ， 洛 区 、 贝 元 莱 、 休 吝 则 是 经 验 主 
义 的 代表 。 因 为 相信 自己 的 推理 能 力 ， 理 性 主义 者 编造 出 宇宙 理论 ( 委 
婉 地 说 )， 这 经 不 住 时间 的 考验 ， 但 他 们 也 创造 了 基本 的 数学 知识 ， 比 
如 微 积分 和 解析 几何 。 经 验 主 义 总 体 来 说 更 为 实际 ， 而 且 它 们 随处 可 
见 ， 从 科学 方法 到 美国 宪法 都 有 它们 的 号 影 。 


大 卫 ' 休 庶 是 最 伟大 的 经 验 主义 者 ， 以 及 有 史 以 来 最 伟大 、 以 英语 
为 母语 的 哲学 家 。 诸 如 亚当 :斯 密 、 查 尔 斯 :达尔 文 之 类 的 思想 家 都 深 受 
其 影响 。 你 也 可 以 说 他 是 符号 学 派 的 守护 神 。 他 1711 年 生 于 苏格兰 ， 大 
半辈子 都 生活 在 18 世 纪 的 爱丁堡 〈 一 个 思想 活跃 的 繁荣 城市 ) 。 他 虽然 
性 情 刘 和 ， 却 是 一 个 严格 的 怀疑 论 者 ， 伦 了 大 半 替 子 来 解 开 他 那个 时 代 
的 难题 。 为 了 得 出 符合 逻辑 的 论断 ， 休 说 借 用 了 洛克 开创 的 经 验 主义 思 
想 ， 并 提出 一 个 问题 ， 这 个 问题 在 所 有 领域 的 知识 中 残 像 一 把 达 摩 元 利 
斯 之 剑 ， 从 最 琐 雁 的 领域 到 最 先进 的 领域 ， 都 是 一 个 时 刻 存 在 的 问题 : 
在 概括 我 们 见 过 的 东西 以 及 没 见 过 的 东西 时 ， 怎 样 才 能 做 到 合理 ? 从 某 
种 意义 上 说 ， 每 种 学 习 算法 都 在 尝试 回答 这 个 问题 。 


休 谈 的 问题 也 正 是 我 们 开局 寻找 终极 算法 之 旅 的 开始 。 首 先 ， 我 们 
会 通过 日 常生 活 中 的 例子 来 解释 这 个 问题 ， 并 通过 现在 人 人 皆 知 的 “天 


下 没有 免费 的 午餐 ”这 个 定理 来 体现 这 个 问题 。 然 后 我 们 会 看 到 符号 学 
者 对 休 吝 的 回答 。 这 把 我 们 引 同 机 口 学 习 中 最 重要 的 问题 : 不 真实 存在 
的 过 拟 合 或 幻觉 模式 。 我 们 会 看 到 符号 学 者 如 何 解决 它 。 机 喜 学 习 本 质 
上 是 一 种 炼金 术 ， 在 魔法 石 的 辅助 下 把 数据 变 成 知识 。 对 于 符号 学 者 来 
说 ， 魔 法 石 就 是 知识 。 在 接 下 来 的 4 章 中 ， 我 们 还 会 研究 其 他 学 派 的 “ 炼 
金 术 ”。 


约 不 约 


你 有 一 个 很 喜欢 的 朋友 ， 想 找 她 出 来 约会 。 如 果 遭 到 拒绝 ， 你 会 很 
难过 ， 但 是 如 果 你 想 知道 她 会 不 会 答应 ， 也 只 能 去 问 她 。 现 在 是 周 五 傍 
晚 ， 你 拿 着 手机 举 在 那里 考虑 要 不 要 给 她 打 电 话 ， 你 记得 上 次 你 问 过 
她 ， 但 她 拒绝 了 。 但 是 为 什么 上 次 的 前 两 次 你 约 她 ， 她 都 答应 了 ， 而 这 
两 次 的 前 一 次 她 却 拒绝 了 ? 可 能 有 时 候 只 是 她 不 想 出 门 ? 也 可 能 她 喜欢 
泡 吧 而 不 喜欢 吃饭 ?为 了 理 出 头绪 ， 你 先 放 下 了 手机 ， 写 下 了 前 几 次 的 
情况 〈 见 表 3-1) 。 


表 3-1 约会 记录 
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不 好 看 


不 好 看 


不 好 看 


那么 答案 是 什么 ?答应 还 是 不 答应 ?有 没有 什么 模型 可 以 区 分 肯定 


和 否定 ?更 重要 的 是 ， 这 个 模型 会 如 何 决 定 今天 的 情况 ? 


很 明显 ， 没 有 哪个 因素 可 以 单独 准确 预测 出 答案 有 的 周末 她 喜欢 
出 去 约会 ， 而 有 的 周末 她 却 不 想 出 去 ; 有 时 她 喜欢 去 泡 吧 ， 而 有 时 她 又 
不 喜欢 .…… 把 所 有 因素 综合 起 来 会 怎样 ?可 能 周末 她 喜欢 去 泡 吧 ? 并 不 
和 是， 第 四 次 约会 就 排除 了 这 种 情况 ， 或 者 可 能 她 只 喜欢 天 气 上 暖和 的 周末 
晚上 出 去 约会 ? 是 的 ! 这 个 说 法 符合 之 前 的 情况 ! 看 了 看 外 面 寒冷 的 天 
气 ， 好 像 今 晚 不 合适 。 可 是 等 一 下 ! 电视 不 好 看 的 晚上 她 会 不 会 想 去 泡 
吧 ? 好 像 这 也 符合 前 几 次 的 情况 ， 也 就 是 说 今天 可 以 约会 ! 快 ， 快 点 打 
给 她 ， 不 然 就 返 了 。 再 等 等 。 你 怎么 知道 这 是 对 的 模型 ? 你 已 经 找到 两 
种 情况 和 之 前 的 情况 相符 ， 但 这 两 次 的 预测 都 是 否定 。 细 想 一 人 下， 如 果 
她 只 想 天 气 好 的 时 候 去 泡 吧 ， 那 怎么 办 ? 或 者 她 只 是 在 没什么 电视 好 看 
了 时 的 局 来 直 会 出 去 ?或 者.5 


这 时 ， 你 灰心 地 把 画 好 的 表 揉 成 一 团 ， 丢 到 垃圾 桶 里 。 没 有 办 法 知 
道 她 会 不 会 答应 ! 你 能 做 什么 ? 休 庶 的 灵魂 伤心 地 在 你 的 局 膀 上 扣 尖 。 
你 没有 任何 依据 选择 这 个 而 不 是 男 外 一 个 。 对 于 “她 会 说 什么 ”这 个 问 
题 ， 回 答 “ 是 ?或 “人 否 ” 的 可 能 性 都 一 样 。 时 钟 咬 哈 作 啊 ， 最 后 你 准备 抛 硬 
币 来 决定 。 


你 不 是 唯一 身 处 窘境 的 人 一 一 我 们 都 是 。 我 们 才 开 始 寻找 终极 算法 
之 旅 ， 似 乎 就 已 经 遇 到 无 法 克服 的 困难 了 。 有 没有 什么 办 法 可 以 从 过 去 
的 经 历 中 掌握 规律 ， 然 后 信心 满 满 地 运用 到 未 来 的 事情 中 ? 如 果 没 有 ， 
那么 机 器 学 习 不 就 是 一 个 没有 和 希望 的 事业 了 吗 ? 就 此 而 言 ， 所 有 学 科 其 
至 所 有 人 类 的 知识 ， 不 就 随时 可 能 会 被 推翻 吗 ? 


这 种 情况 不 是 大 数据 能 解决 的 问题 。 你 可 以 像 卡 院 话 所 那样 放荡 ， 
有 无 数 个 可 以 约会 数 几 和 干 次 的 女人 ， 但 你 的 主 数据 库 还 是 不 知道 这 次 这 
个 女人 会 说 什么 。 即 使 今天 和 前 儿 次 她 答应 约会 的 情况 一 样 (都 是 周 
末 、 一 样 的 约会 方式 、 一 样 的 天 气 、 一 样 的 电视 节目 ) ， 这 也 并 不 意味 
着 这 次 她 会 答应 你 出 去 约会 。 正 如 你 所 知道 的 那样 ， 她 的 回答 由 一 些 你 


不 知道 或 者 无 法 知道 的 原因 决定 。 也 或 者 她 的 回答 没有 什么 别 的 原因 ， 
只 是 随口 回答 ， 而 你 也 只 是 白费 力气 地 从 之 前 的 情况 中 找 规律 。 


自 休 说 提出 归纳 问题 ， 哲 学 家 就 已 经 对 此 进行 辩论 ， 但 还 没有 人 能 
给 出 一 个 满意 的 答案 。 们 特 兰 多么 喜欢 用 “归纳 主义 者 火 鸡 " 这 个 故事 
来 阐述 这 个 问题 。 故 事 的 主人 公 是 一 只 火 鸡 ， 它 来 到 农场 的 第 一 个 早 
晨 ， 主 人 在 早上 9 点 喂 它们 ， 但 作为 实 实在 在 的 归纳 法 优越 论 者 ， 它 不 
想 过 早 下 结论 : 主人 每 天 都 9 点 喂 它们 。 首 先 它 在 不 同情 况 下 观察 了 很 
多 天 ， 收 集 了 许多 观察 数据 。 主 人 连续 多 天 都 是 9 点 喂 它 们 ， 最 终 它 得 
出 结论 ， 认 为 主人 每 天 早上 9 点 喂 火 鸡 ， 那 么 主人 一 直 会 在 早上 9 点 给 它 
喂食 。 接 下 来 是 平安 夜 那 天 的 早晨 ， 主 人 没有 喂 它 ， 因 为 它 被 字 了 。 


如 果 休 说 问 题 仅仅 是 一 个 我 们 可 以 忽略 的 哲学 小 难题 ， 就 太 好 了 ， 
但 事实 并 非 如 此 。 例 如 ,谷歌 的 业务 就 是 在 你 往 搜 索 框 输入 一 些 关 键 字 
时 ， 猜 测 你 在 寻找 哪些 网 页 。 过 去 搜索 查询 的 人 所 输入 关键 字 的 大 量 记 
录 ， 以 及 他 们 点 击 的 、 相 应 查询 结果 页 面 的 链接 ， 都 是 谷歌 的 重要 资 
产 。 如 果 东 个 人 输入 一 组 关键 字 ， 而 这 些 关 键 字 却 不 在 记录 里 面 ， 你 该 
怎么 办 ?即便 关键 字 在 记录 中 ， 你 怎么 能 肯定 当前 用 户 想 要 的 搜索 结 
和 之 前 的 一 样 ? 


如 琳 我 们 只 是 假设 未 来 和 昨天 一 样 ， 那 么 会 怎样 呢 ? 这 当然 是 一 个 
有 风险 的 假设 (这 对 归纳 主义 者 火 鸡 就 不 会 爱 效 ) 。 男 外 ， 没 有 这 样 的 
假设 ， 所 有 知识 将 不 复 存 在 ， 生 活 也 是 如 此 。 虽 然 有 很 多 不 确定 性 ， 但 
我 们 还 是 宁可 活 下 来 。 遗 憾 的 是 ， 虽 然 有 那样 的 假设 ， 但 我 们 还 是 尚未 
走出 困境 。 这 个 假设 还 得 应 付 这 些 “ 微 不 足 道 的 ”例子 : 如果 我 是 一 名 医 
生 ， 患 者 B 和 患者 A 有 一 模 一 样 的 症状 ， 我 假设 两 人 的 诊断 结果 都 一 
样 。 但 如 果 患 者 B 的 症状 和 其 他 人 都 不 一 样 ， 我 就 仍然 不 知道 如 何 做 诊 
断 。 这 属于 机 器 学 习 问 题 ， 将 某 结 果 推 广 到 我 们 没有 见 过 的 事件 中 。 


也 许 这 也 不 是 什么 大 问题 ? 有 了 足够 的 数据 ， 大 多 数 事件 不 就 变 
得 “微不足道 ?了 吗 ? 不 是 的 。 我 们 在 前 面 的 章节 中 了 解 到 ， 为 什么 记忆 


不 能 当 作 通用 学 习 算 法 ， 我 们 现在 可 以 用 更 量化 的 方式 来 解释 这 个 问 
题 。 假 设 你 现在 有 一 个 数据 库 ， 含 有 1 万 亿 条 记录 ， 每 条 记录 有 1000 个 
布尔 字段 〈 也 就 是 说 ， 每 个 字段 回答 一 个 是 或 否 的 问题 )》。 这 个 数据 库 
真 的 好 大 。 你 认为 有 多 少 种 可 能 的 事件 ? 往 下 读 之 前 好 好 猜 一 猜 。 每 个 
问题 可 能 的 答案 有 两 个 ， 两 个 问题 就 是 2 乘 以 2 (是 一 是 、 是 一 否 、 否 一 
是 、 否 一 否 ) ， 三 个 问题 就 是 2 的 三 次 方 〈2x2x2=23) ， 如 果 是 1000 个 
问题 ， 就 是 2 的 1000 次 方 (21009) 。 你 的 数据 库 中 1 万 亿 条 记录 ， 可 能 性 
就 是 分 子 是 1、 分 母 是 无 限 大 的 数 乘 以 1%， 人 然后 再 乘 以 21000, “分 子 是 
1、 分 母 是 无 限 大 的 数 ” 指 的 是 “小 数 点 前 是 0， 小 数 点 后 是 286 个 0， 后 面 
跟着 1 的 小 数 ”"。 结 果 就 是 : 无 论 有 多 少数 据 一 一 多 少 兆 、 多 少 干 光 、 多 
少 千 兆 兆 、 多 少 译 或 多 少 锅 字 节 ， 你 基本 上 什么 也 看 不 到 。 你 要 决定 的 
新 事件 已 经 存在 于 数据 库 中 ， 而 数据 库 非常 大 ， 这 件 事 发 生 的 概率 低 到 
可 以 忽略 ， 所 以 如 果 不 进 行 一 般 化 ， 对 你 就 不 会 有 任何 帮助 。 


如 采 这 些 听 起 来 有 点 抽象 ， 那 么 假设 你 是 一 个 邮件 服务 提供 商 ， 要 
将 每 封 收 到 的 邮件 进行 分 类 ， 分 为 垃圾 邮件 或 非 评 圾 邮件 。 你 也 许 有 一 
个 包含 1 万 亿 封 过 去 邮件 的 数据 库 ， 而 且 每 封 邮件 都 已 经 被 分 为 垃圾 邮 
件 或 非 垃圾 邮件 ， 但 那样 做 并 不 会 让 你 省 事 ， 因 为 每 封 新 邮件 和 之 前 邮 
件 一 模 一 样 的 概率 几乎 是 0。 你 没有 选择 ， 只 能 以 大 概 的 概率 来 区 分 垃 
圾 邮件 和 非 垃 圾 邮件 ， 而 根据 休 广 的 观点 ， 这 根本 做 不 到 。 


“天 下 没有 免费 的 午餐 ”定理 


休 席 提出 爆炸 性 问题 之 后 的 250 年 ， 大 卫 : 沃 尔 珀 特 (David 
Wolpert) 赋予 了 这 个 问题 优雅 的 数学 形式 。 沃 尔 珀 特 原来 是 一 名 物理 
学 家 ， 后 来 成 为 机 器 学 习 者 。 他 的 研究 结果 被 人 们 称 为 “天 下 没有 免费 
的 午餐 ”定理 ， 规 定 “ 怎 样 才 算 是 好 的 学 习 算 法 "。 这 个 规定 要 求 很 低 : 


没有 哪个 学 习 算 法 可 以 比 得 上 随意 猜测 。 好 吧 ， 那 我 们 就 不 用 找 终 极 算 
法 ， 可 以 回 家 了 : 终极 算法 只 是 用 抛 人 硬币 来 做 决定 的 算法 。 说 真 的 ， 如 
朵 没有 哪个 学 习 算 法 可 以 比 抛 硬币 更 管用 ， 那 会 怎样 ? 而 且 如 果真 的 古 
那样 ， 为 什么 这 个 世界 一 一 从 垃圾 邮件 过 滤 《〈“ 随 时 都 在 进行 ) 到 目 动 区 
驶 汽车 一 一 到 处 都 是 非常 成 功 的 学 习 算 法 呢 ? 


“天 下 没有 免费 的 午餐 ”这 个 定理 和 帕斯卡 尔 赌注 失败 的 原因 非常 相 
似 。 由 斯 卡尔 的 《思想 录 》 于 1669 年 出 版 ， 他 在 书 中 提 到 我 们 应 该 相信 
基督 教 中 的 神 ， 因 为 如 果 神 存在 ， 他 就 会 给 我 们 永生 ， 而 如 果 他 不 存 
在 ， 我 们 的 损失 也 很 小 。 这 在 当时 是 非常 复杂 的 论点 ， 但 正如 狄 德 多 指 
出 的 那样 ， 伊 玛 目 也 可 以 同样 的 理由 让 人 们 来 相信 和 真主 安 拉 的 存在 。 如 
果 你 选 错 了 要 信 的 神 ， 代 价 就 是 永世 在 地 狱 。 总 而 言 之 ， 在 考虑 各 种 各 
样 可 能 相信 的 神 时 ， 选 择 特定 的 神 来 信仰 ， 还 不 如 选择 其 他 的 神 。 因 
为 ， 有 说 “这 样 做 ”的 神 ， 也 会 有 说 “不 ， 那 样 做 ”的 神 。 你 也 许 应 该 把 神 
迄 了 ， 好 好 胖 受 没有 宗教 限制 的 生活 。 


用 “学 习 算法 ?来 代替 “ 神 ”， 用 ”准确 的 预测 ”来 代替 “永生 ”， 你 就 遵 
守 “ 天 下 没有 人 免费 的 午餐 ”这 个 定理 了 。 选 择 你 最 喜欢 的 学 习 算 法 在 本 
书 中 你 会 看 到 很 多 算法 ) 。 如 果 存 在 学 习 算法 比 随 机 猜测 好 用 的 领域 ， 
我 “一 个 喜欢 唱 反 调 的 人 ) 会 构建 一 个 学 习 算 法 没有 随机 猜测 好 用 的 领 
域 。 我 要 做 的 就 是 把 所 有 “未 知 ? 例 子 的 标签 翻 过 来 。 因 为 “经 过 观 峙 ”的 
标签 表明 ， 你 的 学 习 算法 绝 无 可 能 区 分 世界 和 反 物 质 世 界 。 在 这 两 个 世 
界 中 的 平均 表现 ， 学 习 算 法 和 随机 猜测 一 样 好 用 。 因 此 ， 在 所 有 可 能 的 
世界 中 ， 把 每 个 世界 与 其 反 物质 世界 配对 ， 你 的 学 习 算 法 的 作用 残 和 抛 
人 硬币 的 作用 一 样 。 


里 然 如 此 ， 别 号 上 就 对 机 器 学 习 或 终极 算法 失望 。 我 们 不 关心 所 有 
可 能 存在 的 世界 ， 而 只 关心 我 们 生存 的 这 个 世界 。 如 果 我 们 对 这 个 世界 
有 所 了 解 ， 然 后 把 了 解 的 知识 输入 我 们 的 学 习 算 法 ， 那 么 现在 和 随机 猜 
测 相 比 ， 学 习 算 法 束 可 以 友 挥 优势 了 。 休 说 可 能 会 回应 说 ， 知 识 本 里 必 


须 由 归纳 得 来 ， 因 此 知识 也 是 有 问题 的 。 没 错 ， 虽 然 知 识 是 通过 进化 编 
入 我 们 的 大 脑 的 ， 但 我 们 不 得 不 冒 这 个 险 。 我 们 也 可 以 这 样 问 ， 有 没有 
小 部 分 毋庸 置疑 、 非 党 基础 的 宝 贯 知识 ， 让 我 们 可 以 在 其 基础 上 进行 所 
有 归纳 《有 点 像 稍 卡 儿 的 “我 思 故 我 在 >， 虽然 很 难 明白 ， 如 何 将 这 人 句 话 
输入 学 习 算 法 中 ) 。 我 觉得 回答 是 肯定 的 ， 在 第 九 蔓 ， 我 们 就 会 知道 那 
些 宝贵 的 知识 是 什么 。 


同时 ,“ 天 下 没有 免费 的 午餐 ”这 个 实际 的 结论 表明 ， 不 靠 知识 进行 
学 习 ， 这 样 的 事 不 存在 。 只 有 数字 也 不 够 。 从 零 开始 只 会 让 你 一 无 所 
获 。 机 器 学 习 就 像 知 识 条 ， 我 们 可 以 用 它 来 从 数据 中 提取 大 量 的 知识 ， 
但 首先 我 们 得 先 对 泵 进行 预 设 。 


数学 家 认为 机 器 学 习 这 个 问题 是 一 个 不 适 定 问题 (ill-posed 
problem ) : 这 个 问题 没有 唯一 解 。 下 面 是 一 个 简单 的 不 适 定 问题 : 哪 
两 个 数 相 加 的 得 数 是 1000? 假设 这 两 个 数 都 是 正 数 ， 答 案 束 有 500 
种 ......1 和 999，2 和 998 等 等 。 解 决 不 适 定 问题 的 唯一 办 法 就 是 引入 附加 
假设 。 如 果 我 告诉 你 ， 第 二 个 数 是 第 一 个 数 的 三 倍 ， 那 么 答案 就 是 250 
和 750。 


汤姆 : 米 切 尔 ‘Tom Mitchell ) 是 典型 的 符号 学 者 ， 称 机 口 学 习 体 
现 “ 无 偏见 学 习 的 无 用 性 *。 在 日 常生 活 中 ,“ 偏 见 * 是 一 个 贬义 词 : 预 设 
观念 不 太 好 。 但 在 机 需 学 习 中 ， 预 设 观 念 是 必 不 可 少 的 ; 没有 这 些 观 
念 ， 你 就 无 法 进行 学 习 。 实 际 上 ， 预 设 观念 对 人 类 认 知 来 次， 也 是 必 不 
可 少 的 ， 这 些 观念 是 “直线 布 入 ”人 脑 的 。 对 于 它们 ， 我 们 也 和 党 得 是 理 所 
当然 的 。 超 出 那些 观念 的 偏见 才 值 得 质疑 。 


亚 里 士 多 德 曾经 说 过 ， 在 知识 领域 ， 没 有 什么 东西 不 是 首先 凭借 感 
觉 来 形成 的 。 莱 布 尼 次 又 加 了 一 句 ,“ 除 了 知识 本 号”。 人 类 的 大 脑 不 是 
一 张 白 纸 ， 因 为 它 不 是 一 块 石板 。 石 板 是 被 动 的 ， 你 可 以 在 上 和 面 写 东 
西 ， 但 大 脑 可 以 主动 处 理 它 接收 到 的 东西 。 记 忆 束 是 大 脑 用 来 写 东 西 的 
石板 ， 而 且 记 忆 不 是 一 开始 就 是 空 昌 的 。 男 一 方面 ， 计 算 机 在 你 给 它 编 


程 之 前 ， 就 是 一 张 白 纸 ; 在 用 计算 机 做 事 之 前 ， 这 个 积极 的 过 程 需 写 入 
记忆 。 我 们 的 目标 是 找到 最 简单 的 、 我 们 能 编写 的 程序 ， 这 样 写 好 的 程 
序 就 可 以 无 限制 地 通过 阅读 数据 来 自行 编程 ， 直 到 该 程序 掌握 所 有 能 掌 
握 的 知识 。 


机 器 学 习 不 可 避免 地 含有 投机 的 因素 。 在 《和 警 探 哈里 》《 第 一 集 ) 
中 ， 克 林 特 : 伊 斯 特 伍德 妃 逐 一 名 银行 抢 动 犯 ， 同时 不 断 问 他 开 枪 。 最 
后 ， 抢 劫 犯 躺 在 一 把 装 有 子弹 的 枪 劳 边 ， 不 确定 要 不 要 把 它 拿 起 来 。 哈 
里 开 了 6 枪 还 是 只 开 了 5 枪 ? 哈里 同情 地 说 (可 以 这 么 说 ):“ 你 得 问 目 
己 一 个 问题 ， :我 足够 走运 吗 ? “你 真 的 走运 吗 ， 小 子 ? ”这 也 是 机 器 学 习 
算法 每 天 运作 时 必须 问 上 自己 的 问题 : “今天 我 竺 运 吗 ? ?就 像 进 化 的 过 程 
一 样 ， 机 器 学 习 不 是 时 时 刻 刻 都 知道 自己 是 否 可 以 准确 无 误 地 运行 。 实 
际 上 ， 误 差 是 党 有 的 事 ， 并 不 意外 。 但 没关系 ， 因 为 我 们 放弃 误差 的 部 
分 ， 主 要 徘 没 有 误差 的 部 分 ， 而 计算 结果 才 是 最 重要 的 。 我 们 一 旦 掌握 
新 的 知识 ， 基 于 前 面 的 步 又， 残 可 以 得 出 更 多 的 知识 。 唯 一 的 问题 就 
是 ， 从 哪里 开始 。 


对 知识 条 进行 孔 设 


在 《上 自然 哲学 的 数学 原理 》 一 书 及 三 大 运动 定律 中 ， 牛 顿 阐述 了 推 
理 的 四 条 法 则 。 虽 然 这 些 法 则 没有 那些 物理 定律 那么 善 名 ， 但 可 以 说 很 
重要 。 其 中 第 三 条 是 关键 法 则 ， 我 们 可 以 这 样 表述 : 


我 们 见 过 的 所 有 真实 的 东西 ， 在 宇宙 中 也 是 真实 的 。 


可 以 至 不 礁 张 地 说 ， 这 句 听 起 来 无 伤 大 雅 的 话 就 是 牛顿 革命 以 及 现 
代 科 学 的 核心 。 开 普 勒 定律 适用 于 6 个 实体 : 那个 年 代 太 阳 系 中 已 知 的 6 
颗 行 星 。 和 牛顿 定律 适用 于 宇宙 中 的 每 一 个 微粒 。 这 两 个 定律 之 间 的 共性 


如 此 之 大 ， 让 人 感到 吃惊 ， 而 这 也 是 牛顿 法 则 的 直接 结果 。 这 个 法 则 本 
身 束 是 拥有 非凡 动力 的 知识 了 汞 。 没 有 这 个 法 则 ， 也 就 没有 什么 目 然 法 
则 ， 有 的 也 只 是 永远 无 法 完整 的 、 小 规律 的 集合 体 。 


牛顿 法 则 是 机 器 学 习 的 第 一 个 不 成 文 规则 。 我 们 归纳 目 己 能 力 范 围 
内 、 应 用 最 广泛 的 规则 ， 只 有 在 数据 的 迫使 下 ， 才 缩小 规则 的 应 用 范 
图 。 午 一 看 ， 这 看 起 来 可 能 过 于 自信 甚至 近乎 元 座 ， 但 这 种 做 法 已 经 为 
科学 服务 了 300 余 年 。 当 然 也 可 以 想象 出 一 个 变化 无 常 的 宇 害 ， 在 那里 
牛顿 法 则 不 起 作用 ， 但 那 并 不 是 我 们 的 宇宙 。 


然而 ， 牛 顿 法 则 仅仅 是 第 一 步 。 还 得 弄 明 日 我 们 见 到 的 哪些 是 真实 
的 一 一 如 何 从 原始 数据 中 找 出 规律 。 标 准 的 解决 方法 就 是 假设 我 们 知道 
真理 的 形式 ， 而 算法 的 任务 就 是 把 这 个 形式 具体 化 。 例 如 ， 在 之 前 提 到 
的 约会 问题 中 ， 你 可 以 假设 你 朋友 的 回复 由 单个 因素 来 决定 。 在 这 种 情 
况 下 ， 算 法 就 只 包括 看 看 每 个 已 知 的 因素 (时 间 、 约 会 方式 、 天 气 、 晚 
间 电 视 节 目 ) ， 确 定 该 因素 是 否 每 次 都 能 准确 预测 她 的 回答 。 可 问题 束 
在 于 ， 每 个 因 系 都 无 法 预测 她 的 回答 ! 你 打赌 了 ， 然 后 输 了 。 所 以 你 把 
假设 放宽 了 一 点 。 如 果 你 朋友 的 回答 是 由 两 个 因素 一 起 决定 的 呢 ? 总 共 
四 个 因素 ， 每 个 因 系 有 两 种 可 能 的 值 ， 那 么 总 共有 24 种 可 能 (总 共有 6 
对 因 系 组 合 ， 即 12 乘 以 因素 的 两 种 可 能 ) 。 数 字 太 多 ， 我 们 遇 到 尴 众 : 
两 个 因素 的 四 种 组 合 准确 预测 了 结果 ! 接 下 来 怎么 办 ?如 果 你 觉得 运气 
还 行 ， 可 以 选 其 中 的 一 种 ， 然 后 祈 宕 最 好 的 结果 。 但 更 明智 的 选择 是 及 
取 民 主 的 做 法 : 对 每 个 选项 进行 选择 ， 然 后 选 最 后 说 的 预测 。 


如 果 所 有 两 个 因素 组 合 的 预测 都 失败 了 ， 你 可 以 尝试 任意 个 数 因 和 素 
的 组 合 ， 机 器 学 习 者 和 心理 学 家 称 之 为 “ 合 取 概念 ”(conjunctive 
concept)。 人 字典 对 词 的 定义 就 属于 合 取 概念 : 椅子 是 有 靠背 、 奎 干 条 腿 
的 坐 具 。 把 任意 一 个 描述 去 挥 ， 就 不 再 是 椅子 。 托 尔 斯 泰 在 写 《 安 娜 : 
卡 列 尼 娜 》 的 开篇 时 ， 出 现在 他 脑海 里 的 束 是 合 取 概 念 :“ 所 有 幸福 的 
家 性 都 是 相似 的 ， 每 个 不 地 的 家 性 各 有 各 的 不 验 。” 对 于 个 人 来 说 ， 也 


古 这 样 的。 为 了 感到 幸福 ， 你 需要 健康 、 爱 、 朋 友 、 钱 、 你 喜欢 的 工作 
等 。 把 这 些 东西 的 任意 一 个 拿 走 ， 痛 兰 也 会 随 之 而 来 。 


在 机 器 学 习 中 ， 概 念 性 的 例子 成 为 正面 例子 ， 而 与 概念 例子 相反 的 
则 是 负面 例子 。 如 果 你 在 尝试 通过 图 片 来 认 出 猫 ， 那 么 猫 的 图 片 残 是 正 
面 例子 ， 而 狗 的 图 片 则 是 负面 例子 。 如 果 你 对 世界 文学 中 描述 的 家 庭 进 
行 汇总 ， 并 纺 成 数据 库 ， 那 么 卡 列 尼 娜 一 家 束 是 笠 福 家 庭 的 负面 例子 ， 
而 且 正面 例子 鹤 窗 无 几 。 


首先 做 有 条 件 的 假设 ， 如 果 这 样 无 法 解释 数据 ， 再 放松 假设 的 条 
件 ， 这 束 是 典型 的 机 器 学 习 。 这 个 过 程 通常 由 算法 自行 进行 ,不 需要 你 
的 帮助 。 首 先 ， 算 法 会 泽 试 所 有 单一 因 系 ， 然 后 尝试 所 有 两 个 因 系 的 组 
合 ， 之 后 就 是 所 有 三 个 因 和 又 的 组 合 等 。 但 现在 我 们 遇 到 一 个 问题 : 合 取 
概念 太 多 ， 没 有 足够 的 时 间 对 其 逐个 符 试 。 


约会 的 例子 有 扣 欺 驴 性 ， 因 为 它 太 小 “4 个 变量 ，4 个 例子 )。 但 假 
设 你 提供 在 线 约会 服务 ， 你 就 需要 知道 要 对 哪些 人 进行 配对 。 如 果 你 的 
每 个 会 员 都 填写 了 一 份 问卷 ， 问 卷 包 含 50 个 “是 或 否 ” 的 问题 ， 这 样 就 有 
100 种 特点 ， 这 100 种 特点 涵盖 了 每 对 可 能 配对 成 功 的 情侣 的 特点 ， 每 对 
情侣 中 的 一 方 都 有 50 个 特点 。 这 些 情 个 出 去 约会 之 后 ， 会 汇报 结果 ， 在 
此 基础 上 ， 你 能 找到 “ 佳 侦 ” 这 个 定义 的 合 取 概念 吗 ? 忆 共有 3100 种 可 能 
的 定义 《每 个 问题 有 三 种 选择 ， 分 别 为 “是 ”、“ 人 否 ”、“ 与 该 品质 无 
关 ”) 。 即 使 由 世界 上 最 快速 的 计算 机 来 做 这 项 工作 ， 这 些 情侣 也 会 老 
得 去 世 了 《你 的 公司 也 破产 了 ) 。 等 你 计算 出 来 ， 除 非 你 走运 ， 可 以 找 
出 很 短 的 一 条 关于 “ 佳 倘 ”的 定义 。 规 则 太 多 ， 而 时 间 太 少 ， 我 们 得 做 点 
更 精明 的 事 。 


这 里 有 一 种 方法 : 暂且 假设 每 个 配对 都 合适 ， 然 后 排除 所 有 不 含有 
某 品 质 的 搭配 ， 对 每 种 品质 重复 同样 的 做 法 ， 然 后 选择 那个 排除 了 最 多 
不 当 搭配 和 最 少 适 当 搭 配 的 选项 。 现 在 你 的 定义 看 起 来 就 像 * 只 有 他 开 
明 ， 这 对 才 合 适 ”。 现 在 反 过 来 试 着 把 其 他 品质 加 进去 ， 然 后 选择 那个 


排除 了 剩 下 最 多 的 不 当 搭配 和 剩 下 最 少 的 适当 搭配 的 选项 。 现 在 的 定义 
可 能 是 “只 有 他 和 她 都 开明 ， 这 对 才 合 适 ”。 然 后 试 着 往 那 两 个 特点 里 加 
入 第 三 个 品质 ， 以 此 类 推 。 一 旦 排除 了 所 有 不 合适 的 搭配 ， 你 就 成 功 

了 : 了 束 有 了 这 个 概念 的 定义 ， 这 个 概念 排除 了 所 有 的 正面 例子 和 所 有 的 
负面 例子 。 例 如 , “每 对 中 的 两 个 人 都 开明 ， 这 对 才 合适 ， 他 爱 狗 ， 而 
她 不 爱 猫 ”。 现 在 你 可 以 丢掉 所 有 数据 ， 然 后 只 把 这 个 定义 留 下 ， 因 为 
这 个 定义 概括 了 所 有 和 你 的 目标 相关 的 东西 。 这 个 算法 保证 能 在 合理 的 
时 间 内 完成 运算 ， 而 这 也 是 我 们 在 本 书 中 见 过 的 第 一 个 真实 的 学 习 算 

和 


如 何 征 服 世 界 


虽然 合 取 概念 的 用 途 有 很 多 ， 但 并 不 能 让 你 走 很 远 。 正 如 鲁 德 亚 德 
' 吉 小 林 资 的 那样 ， 问 题 在 于 “ 纺 部 落 歌谣 的 方法 有 很 多 种 ， 而 每 种 方法 
都 是 正确 的 ”。 真 正 的 概念 是 分 离 的 。 椅 子 可 能 有 四 条 腿 或 三 条 腿 ， 而 
有 些 则 一 条 也 没有 。 你 可 以 以 无 数 种 方法 来 局 一 盘 棋 。 包 含 “伟哥 ”这 个 
词 的 邮件 有 可 能 是 垃圾 邮件 ， 但 包含“ 免费 ”一 词 的 邮件 也 有 可 能 是 垃圾 
邮件 。 些 外 ， 所 有 规则 都 会 有 例外 。 所 有 的 鸟 都 会 飞 ， 除 了 企鹅 、 能 
乌 、 食 火 鸡 或 者 几 维 乌 〈 或 断 了 地 膀 的 乌 ， 或 被 锁 在 党 子 里 的 乌 ) 。 


我 们 要 做 的 就 是 学 习 经 过 一 系列 规则 定义 的 概念 ， 而 不 仅仅 是 单个 
规则 ， 例 如 : 


如 果 你 喜欢 《星球 大 战 》 第 四 至 六 部 ， 那 么 你 会 喜欢 《 阿 凡 
达 》。 

如 果 你 喜欢 《星际 迷航 : 下 一 代 》 以 及 《泰坦 尼克 号 》， 那 么 
你 会 喜欢 《 阿 凡 达 》。 


如 果 你 参加 塞 拉 俱 乐 部 ， 并 阅读 科幻 书籍 ， 那 么 你 会 喜欢 《 阿 
拖 达 六 二 


或 者 : 


如 果 你 的 信用 卡 昨天 在 中 国 、 加 拿 大 以 及 尼日利亚 被 刷 ， 那 么 
它 被 盗 了 。 
如 果 革 工作 日 晚上 11 点 ， 你 的 信用 卡 被 剧 ， 那 么 它 被 盗 了 。 
如 果 你 的 信用 卡 被 用 来 购买 一 美元 的 汽油 ， 那 么 它 被 盗 了 。 


六 


六 


如 果 你 对 最 后 一 条 规则 有 疑问 ， 解 释 如 下 : 过 去 信用 卡 禄 贼 通常 会 
用 偷 到 的 卡 购买 一 美元 的 汽油 ， 来 看 看 在 数据 挖掘 器 识破 其 明 诬 前 ， 信 
用 卡 是 否 完好 。 


我 们 可 以 像 学 习 这 条 规则 那样 来 同时 学 习 多 套 规 则 ， 利 用 我 们 之 前 
见 过 的 算法 来 学 习 合 取 概 念 。 我 们 学 习 每 个 规则 之 后 ， 会 排除 该 规则 包 
含 的 正面 例子 ， 因 此 下 一 个 规则 会 尽 可 能 多 地 包含 剩 下 的 正面 例子 ， 以 
此 类 推 ， 直 到 所 有 的 例子 都 被 包含 在 内 。 这 是 一 个 “分 而 治之 ”的 例子 ， 
也 是 科学 家 的 战术 手册 中 最 古老 的 集 略 。 为 了 找到 单个 规划 ， 我 们 也 可 
以 对 算法 进行 改 民 ， 方 法 就 是 保留 条 数 n 的 假设 ， 不 止 一 个 数 ， 然 后 在 
每 个 步 又 中 将 这 些 数 以 所 有 可 能 的 方法 延伸 开 来 ， 最 后 保留 n 的 最 佳 结 
果 。 


通过 该 方法 发 现 规 则 的 创意 来 自理 夏 德 : 米 哈 尔 斯 基 (Ryszard 
Michalski) ， 他 是 波兰 的 一 位 计算 机 科学 家 。 米 哈 尔 斯 基 的 故乡 一 一 卡 
尔 鲁 效 之 前 曾 属 于 波兰 、 俄 罗斯 、 德 国 以 及 乌克兰 ， 这 让 米 哈 尔 斯 基 比 
多 数 人 更 能 理解 合 取 概念 。1970 年 移民 美国 之 后 ， 他 和 汤姆 : 米 切 尔 、 
杰 米 : 卡 博 内 尔 一 起 创立 了 机 器 学 习 的 符号 和 学派。 他 个 性 做 慢 ， 如 果 你 
在 一 场 机 器 学 习 会 议 中 做 报告 ， 那 么 很 有 可 能 他 会 举 手 指 出 你 只 是 重新 


发 现 了 他 之 前 的 旧 观 点 。 


零售 商 喜 欢 一 套套 的 规则 ， 因 为 他 们 要 决定 该 围 什么 货 。 通 利 ， 他 
们 会 用 比 “ 分 而 治之 ”更 为 彻底 的 方法 ， 也 就 是 寻找 所 有 能 够 准确 预测 每 
个 购买 项 的 规则。 沃尔玛 在 该 领域 属 先 驱 ， 他 们 早期 的 发 现 之 一 残 是 ， 
如 果 你 买 了 纸 尿 片 ， 那 么 很 有 可 能 会 买 啤酒 。 为 什么 ?对 此 进行 解释 的 
说 法 之 一 就 是 ， 妈 妈 让 色色 去 超市 买 纸 原 片 ， 出 于 情感 补偿 ， 和 多 和 爸 来 了 
一 箱 啤 酒 。 知 着 这 一 点 ， 超 市 现在 会 把 啤酒 放 在 纸 原 片 劳 边 ， 这 样 啤酒 
就 会 卖 得 更 好 。 不 找 规律 ， 这 样 的 事 就 不 会 在 斌 尔 玛 发 生 。 “啤酒 和 纸 
尿 片 ”的 规则 已 经 在 数据 挖掘 领域 取得 传奇 式 的 地 位 《虽然 会 有 人 说 ， 
所 谓 的 传奇 和 城市 多 样 化 有 关 ) 。 不 管 怎样 ， 这 和 米 哈 尔 斯 基 想 象 的 数 
字 电 路 设计 问题 还 差 得 很 远 。20 世 纪 60 年 代 ， 他 开始 考虑 规则 归纳 问 
题 。 如 果 你 发 明了 新 的 学 习 算法 ， 你 其 至 无 法 想象 这 个 算法 能 应 用 的 所 
有 地 方 。 


我 第 一 次 直接 体验 规则 学 习 ， 是 在 申请 信用 卡 的 时 候 。 那 时 我 刚 来 
到 美国 ， 开 始 接受 研究 生 教育 ， 银 行 给 我 宕 了 一 封 信 ， 说 “很 遗 惰 ， 你 
居住 在 该 地 址 的 时 间 还 不 足够 长 ， 所 以 无 历史 信用 记录 ， 你 的 申请 被 拒 
绝 了 ”。 就 在 那 时 ， 我 知道 在 机 器 学 习 领 域 有 待 研究 的 东西 还 很 多 。 


在 无 知 与 幻觉 之 间 


规则 集 在 很 大 程度 上 比 合 取 概 念 要 有 力 得 多 。 实 际 上 ， 规 则 的 力量 
如 此 之 大 ， 大 到 你 可 以 用 规则 来 代表 任何 概念 ， 权 找到 原因 则 很 难 。 如 
果 你 给 我 某 个 概念 的 完整 例子 ， 我 只 能 将 每 个 例子 变 成 一 个 规则 。 这 个 
规则 规定 了 每 个 例子 的 所 有 属性 ， 而 这 些 规则 的 集合 就 是 该 概念 的 定 
义 。 回 到 之 前 关于 约会 的 例子 ， 其 中 的 一 个 规则 是 : 现在 是 周末 晚上 ， 
天 气 上 暖和 ， 没 有 好 看 的 电视 节目 ， 你 提议 去 泡 吧 ， 她 会 说 <“ 没 问 题 ”。 表 


3-1 只 包含 了 几 个 例子 ， 但 其 实 它 有 16 种 〈2x2x2x2) 可 能 ， 每 个 可 能 都 
会 有 “ 约 ? 或 者 “不 约 ” 的 结果 ， 将 每 个 正面 例子 以 这 样 的 方法 变 成 规则 ， 
我 们 就 成 功 了 。 


规则 集 的 力量 是 一 把 双 刃 剑 。 从 正面 看 ， 你 知道 自己 总 能 找到 和 数 
所 完美 匹配 的 规则。 但 你 还 没 来 得 及 开始 觉得 走运 ， 束 意识 到 目 己 很 有 
可 能 会 找到 一 个 这 无 意义 的 规则 。 记 住 “ 天 下 没有 免费 的 午餐 ”: 没有 知 
识 ， 你 就 无 法 进行 学 习 。 假 设 菏 概念 能 通过 规则 集 来 定义 ， 相 当 于 什么 
也 没有 假设 。 


无 用 规则 集 的 一 个 例子 残 是 ， 只 包含 了 你 看 到 的 正面 例子 ， 除 此 之 
外 ， 没 有 其 他 的 例子 。 这 个 规则 集 看 起 来 100% 准 确 ， 但 那 只 是 假象: 
它 会 预测 每 个 新 例子 都 是 负面 例子 ， 然 后 把 每 个 正面 例子 弄 错 。 如 果 正 
面 例子 总 体 上 比 负 面 例 子 多 ， 这 种 做 法 的 效果 会 比 抛 便 币 更 糟糕 。 想 象 
一 下 ， 邮 件 过 小 需 仅 因 为 东 封 邮件 和 之 前 垃圾 邮件 一 模 一 样 就 将 其 过 
滤 ， 这 样 会 有 什么 后 果 ? 对 分 类 好 的 数据 进行 学 习 很 容易 ， 这 样 的 数据 
看 起 来 也 很 棒 ， 但 还 不 如 没有 垃圾 邮件 过 滤器 。 很 遗憾 ， 我 们 “分 而 治 
之 ”的 算法 有 可 能 束 像 那样 对 规则 集 进行 简单 的 学 习 。 


在 《 博 闻 强 识 的 宣 内 斯 》 的 故事 中 ， 聚 尔 赫 :路 易 斯 : 博 尔 赫 斯 讲述 
了 和 一 位 拥有 完美 记忆 力 的 少年 相遇 的 故事 。 拥 有 完美 记忆 力 看 起 来 非 
常 幸运 ， 但 其 实 这 是 一 个 可 怕 的 诅咒 。 富 内 斯 能 记 住 过 去 任意 时 刻 天 空 
中 云 条 的 形状 ， 但 他 没有 办 法 理解 ， 下 午 15:14 看 到 的 狗 的 侧面 和 下 午 
15:15 看 到 的 狗 的 正面 ， 都 是 同一 条 狗 。 每 次 他 在 镜子 中 看 到 自己 的 
脸 ， 都 会 感到 惊讶 不 已 。 富 内 斯 无 法 进行 概括 : 对 他 来 说 ， 两 个 事物 ， 
只 有 每 个 细节 看 起 来 都 一 致 ， 才 能 说 它们 是 一 样 的。 自由 的 规则 算法 和 
富 内 斯 一 样 ， 发 挥 不 了 作用 。 学 习 就 意味 着 将 细节 遗忘 ， 只 记 住 重 要 前 
分 。 计 算 机 就 是 最 大 的 白痢 专家 : 它们 可 以 毫 无 差错 地 将 所 有 东西 记 
住 ， 但 那 不 是 我 们 想 让 它们 做 的 。 


问题 不 限于 记忆 大 量 例子 。 每 当 算 法 在 数据 中 找到 现实 世界 中 不 存 


在 的 模型 时 ， 我 们 说 它 与 数据 过 于 拟 合 。 过 拟 合 问题 是 机 器 学 习 中 的 中 
心 问题 。 在 所 有 主题 中 ， 关 于 过 拟 合 问题 的 论文 最 多 。 每 个 强大 的 学 习 
算法 ， 无 论 是 符号 学 算法 、 联 结 学 算法 ， 或 者 其 他 别 的 学 习 算 法 ， 都 不 
得 不 担忧 约 沉 模式 这 个 问题 。 避 免 幻觉 模式 唯一 安全 的 方法 ， 就 是 严格 
限制 算法 学 习 的 内 容 ， 例 如 要 求学 习 内 容 是 一 个 简短 的 合 取 概念 。 很 遗 
憾 ， 这 种 做 法 就 像 把 孩子 和 洗澡 水 一 起 倒 挥 一样， 会 让 学 习 算法 无 法 看 
到 多 数 真实 的 模型 ， 这 些 模 型 在 数据 中 是 可 见 的。 因此 ， 好 的 学 习 算 法 
永远 在 无 知 与 纠 沉 的 夹缝 中 行走 。 


人 类 对 过 拟 合 也 没有 免疫 。 你 甚至 可 以 说 ， 过 拟 合 是 我 们 的 万 恶 之 
源 。 想 想 一 个 日 人 小 女孩 ， 在 商场 看 到 拉美 硼 慨 儿 时 脱口 而 出 “看 ， 妈 
妈 ， 那 是 小 女 佣 ”( 真 实例 子 )。 小 女孩 并 非 生 来 就 是 偏执 狂 。 那 是 因 
为 在 她 短暂 的 人 生 阅 历 里 ， 她 对 见 过 的 仪 仅 儿 个 拉美 衣 女 佣 进 行 了 笼统 
的 概括 。 这 个 世界 有 许多 从 事 其 他 职业 的 拉美 宵 ， 但 她 还 没有 见 过 他 
们 。 我 们 的 信仰 建立 在 自己 的 经 历 之 上 ， 这 会 让 我 们 对 世界 的 理解 不 完 
整 ， 而 且 也 容易 过 早 得 出 错误 的 结论 。 即 便 你 很 聪明 ， 学 识 渊博 ， 也 无 
法 免 受 过 拟 合 的 影响 。 亚 里 士 多 德 说 要 使 一 个 物体 不 断 运动 ， 需 要 对 其 
施加 一 个 力 ， 就 犯 了 过 拟 合 的 错误 。 人 利 略 的 天 才 之 处 在 于 ， 无 须 到 外 
大 至 杀 眼 见证 ， 他 和 攒 直觉 就 知道 ， 不 受 外 力 影 啊 的 物体 会 一 直 保 持 运 
动 。 


但 学 习 算 法 特别 容易 过 拟 合 ， 因 为 它们 拥有 从 数据 中 发 现 模 型 、 近 
乎 无 限制 的 能 力 。 人 类 发 现 一 个 模型 所 用 的 时 间 ， 计 算 机 可 以 找到 数 百 
万 个 。 在 机 器 学 习 中 ， 计 算 机 最 大 的 优势 “处理 大 量 数据 以 及 不 知 疫 倦 
不 断 重 复 同 样 步骤 的 能 力 ) 也 是 它 的 劣质 所 在 。 如 果 你 做 的 研究 够 多 ， 
然后 能 有 所 发 现 ， 也 很 不 错 。《 和 圣经 密码 》 (1998 年 的 畅销 书 ) 声称 如 
末 你 以 固定 间距 跳 过 茶 些 字母 ， 然 后 把 点 中 的 字母 拼 起 来 ， 就 会 发 现 
《 蔡 经 》 对 未 来 的 预言 。 遗 憾 的 是 ， 保 证 你 能 从 任何 足够 长 的 文本 中 找 
到 “预言 "， 有 很 多 方法 。 怀 疑 论 者 会 说 ， 他 们 在 《 白 稣 记 》 和 最 高 法 院 
的 裁决 中 找到 了 预言 ， 除 此 之 外 ， 还 提 到 罗斯 威 尔 ， 以 及 《圣经 - 创 世 


纪 》 中 的 不 明 飞 行 物 。 约 鞠 : 冯 : 话 依 曼 〔 计 算 机 科学 的 艳 基 之 父 之 一 ) 
曾 说 过 一 句 众所周知 的 话 :“ 用 4 个 参数 ， 我 能 拟 合 一 头 大 象 ， 用 5 个 参 
数 ， 我 可 以 让 它 的 蜡 子 扭 动 起 来 。” 当 今 我 们 通常 会 学 习 拥 有 数 百 万 参 
数 的 模型 ， 这 些 参数 足以 让 世界 上 的 每 头 大 象 都 扭 动 时 了 于。 甚至 曾 有 人 
说 过 ， 数 据 挖掘 意味 着 “ 扩 磨 数据 ， 直 到 数据 受 协 ”。 


过 拟 合 问题 因为 嘲 杂 的 声 普 被 严重 夸大。 在 机 右 学 习 中 ， 这 些 噪声 
仅仅 意味 大 数据 中 的 误差 ， 或 者 你 无 法 预测 的 偶然 事件 。 比 如 你 的 朋友 
在 电视 不 好 看 的 时 候 ， 真 的 想 去 泡 吧 ， 但 你 记 错 第 三 次 约会 的 情况 ， 并 
写 着 那天 晚上 的 电视 好 看 。 如 果 你 现在 努力 找 出 一 套 规 则 ， 为 那天 晚上 
破 个 例 ， 这 样 你 可 能 最 终 会 得 到 一 个 粮 糕 的 答案 ， 比 忽略 那个 晚上 得 出 
的 结果 还 糟 。 或 者 比如 你 的 朋友 前 一 晚 刚 出 去 哆 醉 了 ， 所 以 今 晚 想 休 
恩 ， 但 如 条 是 平时 ， 她 会 答应 出 去 约会 。 除 非 你 知 着 她 和 宿 酬 了 ， 为 了 得 
出 本 例子 的 正确 结果 而 擎 握 一 套 规则 ， 其 实 会 适得其反 : 你 最 好 将 第 三 
次 约会 情况 “错误 分 类 ”， 以 得 出 否定 回答 。 这 种 情况 更 糟 : 误差 或 侦 然 
事件 会 让 你 无 法 找 出 整套 规律 。 仔 细 看 ， 你 会 发 现 第 二 次 约会 和 第 三 次 
约会 其 实 难以 区 别 : 它们 都 有 相同 的 属性 。 如 果 你 的 朋友 答应 第 二 次 邀 
请 ， 而 拒绝 第 三 次 邀请 ， 那 么 就 没有 什么 规则 能 让 这 两 次 预测 都 准 确 。 


当 你 有 过 多 假设 ， 而 没有 足够 的 数据 将 这 些 假设 区 分 开 来 时 ， 过 拟 
合 问题 束 发 生 了 。 坏 消 奶 是 ， 即 便 对 最 简单 的 合 取 概念 算法 来 说 ， 假 设 
的 数量 也 会 随 着 属性 的 增多 而 呈 指 数 级 增长 。 指 数 级 增长 是 一 件 灵 怖 的 
事 。 大 肠 杆 瑚 每 15 分 钟 就 能 大 致 分 用 成 两 个 细 梢 ， 只 要 有 足够 的 营养 ， 
它 可 以 在 大 约 一 天 时 间 内 ， 生 长 出 大 量 细 霄 ， 和 地 球 一 样 大 。 当 算法 需 
要 做 的 事情 和 输入 的 数据 一 样 呈 指数 级 增长 时 ， 计 算 机 科学 家 束 将 这 个 
现象 称 为 组 合 爆炸 ， 然 后 会 四 处 奔走 寻求 保护 。 在 机 器 学 习 中 ， 一 个 概 
念 可 能 实例 的 数量 ， 是 其 属性 数量 的 指数 函数 : 如 果 属 性 是 布尔 值 ， 每 
种 新 的 属性 可 能 会 是 实例 数量 的 两 倍 ， 方 法 就 是 引用 之 前 的 每 个 实例 ， 
然后 为 了 那个 新 属性 ， 对 该 实例 以 “是 ?或 “ 非 ? 来 进行 扩展 。 反 过 来 ， 可 
能 概念 的 数量 是 可 能 实例 数量 的 指数 函数 : 既然 每 个 概念 都 把 实例 分 成 


正面 或 者 负面 ， 加 入 一 个 实例 ， 可 能 的 概念 融会 翻 倍 。 因 此 ， 概 念 的 数 
量 就 是 属性 数量 的 指数 函数 的 一 个 指数 函数 ! 换 句 话说 ， 机 器 学 习 束 是 
组 合 爆 炸 的 组 合 爆 炸 。 也 许 我 们 该 放弃 ， 不 要 把 时 间 当 费 在 这 样 没有 项 
望 的 问题 上 。 


牌 运 的 是 ， 在 学 习 过 程 中 ， 会 及 生 一 些 事 ， 把 其 中 一 个 指数 消除 ， 
只 剩 下 一 个 “普通 的 ”单一 指数 难 解 型 问题 。 假 设 你 有 一 个 袋子 ， 装 满 概 
念 的 定义 ， 每 个 定义 写 在 一 张 纸 上 ， 你 随机 取出 纸 片 ， 然 后 看 看 这 个 概 
念 和 数据 的 匹配 程度 。 和 连续 抛 1000 次 硬币 都 是 正面 朝 上 的 概率 相 比 ， 
一 个 不 恰当 的 定义 更 没有 可 能 让 你 的 数据 中 所 有 1000 个 例子 都 准确 无 
误 。“ 一 把 椅子 有 四 条 腿 ， 而 且 是 红色 的 ， 或 者 有 椅 面 但 没有 椅 腿 ?可 能 
会 和 某 些 例子 匹配 ， 但 并 不 是 和 你 看 到 的 所 有 椅子 都 匹配 ， 也 可 能 会 和 
其 他 一 些 事物 相 匹 配 ， 但 并 不 是 和 所 有 其 他 事物 都 匹配 。 因 此 ， 如 果 一 
个 随机 定义 准确 匹配 了 1000 个 例子 ， 那 么 这 个 概念 不 太 有 可 能 是 错误 的 
定义 ， 或 者 至 少 它 和 正确 的 定义 非常 接近 。 而 且 如 果 一 个 定义 和 100 万 
个 例子 相 匹 配 ， 那 么 实际 上 它 就 是 正确 的 定义 。 其 他 的 定义 怎么 能 使 那 
么 多 例子 准确 无 误 ? 


当然 ， 真 正 的 学 习 算 法 不 会 只 是 从 袋子 里 随机 去 除 一 个 定义 。 这 个 
算法 会 尝试 所 有 定义 ， 而 且 这 些 定 义 也 不 是 随机 选择 的 。 算 法 尝试 的 定 
义 越 多 ， 越 有 可 能 偶然 得 到 能 够 和 所 有 例子 匹配 的 定义 。 如 果 你 每 组 抛 
1000 次 硬币， 然后 重复 100 万 组 ， 实 际 上 至 少 会 有 一 组 出 现 1000 次 人 硬币 
都 是 正面 朝 上 的 情况 ， 而 100 万 也 仪 仅 是 假设 的 一 个 小 数目 。 例 如 ， 如 
果 例 子 只 有 13 个 属性 ， 那 大 概 就 是 可 能 的 合 取 概念 的 数目 (注意 你 不 需 
要 明确 地 尝试 一 个 又 一 个 概念 ， 如 果 你 找到 的 最 好 的 那个 概念 利用 了 合 
取 概 念 学 习 算 法 ， 并 且 和 所 有 的 例子 匹配 ， 效 果 也 是 一 样 的 ) 。 


总 结 : 学 习 就 是 你 拥有 的 数据 的 数量 和 你 所 做 假设 数量 之 间 的 较 
量 。 更 多 的 数据 会 呈 指数 级 地 减少 能 够 成 立 的 假设 数量 ， 但 如 果 一 开始 
就 做 很 多 假设 ， 最 后 你 可 能 还 会 留 下 一 些 无 法 成 立 的 假设 。 一 般 来 说 ， 


如 果 学 习 算 法 只 做 了 一 个 指数 数量 的 假设 (例如 ， 所 有 可 能 的 合 取 概 

念 ) ， 那 么 该 数据 的 指数 报酬 会 将 其 取消 ， 你 坚 无 影响 ， 只 要 你 有 许多 
例子 ， 且 属性 不 太 多 。 另 外 ， 如 宁 算 法 做 了 一 个 双 指 数 的 假设 〈 例 如 ， 
所 有 可 能 的 规则 集 》， 那 么 数据 只 会 取消 其 中 的 一 个 指数 ， 而 且 你 仍 会 
处 于 嫉 烦 之 中 。 你 甚至 可 以 提前 乔 明白 自己 需要 多 少 例子 ， 这 是 为 了 保 
证 算法 选择 的 假设 和 准确 的 那个 非常 接近 ， 只 要 和 它 对 所 有 数据 都 拟 合 。 
换 名 话说， 是 为 了 假设 能 够 尽 可 能 准确 。 哈 佛 大 学 的 莱 斯 利 : 瓦 利安 特 
获得 了 图 灵 奖 《计算机 科学 领域 的 诺 贝 尔 奖 ) ， 因 为 他 发 明了 这 种 分 析 
方法 ， 他 在 目 己 的 书 中 将 这 种 方法 取 名 为 “可 能 近似 正确 ”(probably 


approximately correct) ， 非 常 恰当 。 


你 能 信任 的 准确 度 


在 实践 中 ， 瓦 利安 特 式 的 分 析 方 法 往往 非常 被 动 ， 而 且 需 要 的 数据 
比 你 拥有 的 还 要 多 。 那 么 你 怎么 决定 ， 是 否 要 相信 学 习 算 法 告诉 你 的 东 
西 呢 ? 这 个 很 简单 : 在 利用 学 习 算 法 过 去 看 不 到 的 数据 对 其 进行 证 实 之 
前 ， 你 不 要 相信 任何 东西 。 如 果 学 习 算 法 假设 的 模型 对 新 数据 来 说 也 适 
用 ， 你 束 可 以 很 有 信心 地 说 那些 模型 是 正确 的 ， 人 否则 你 知道 学 习 算法 过 
拟 合 了 。 这 仅仅 是 应 用 于 机 器 学 习 中 的 科学 方法 : 对 一 个 新 理论 来 说 ， 
这 不 足以 用 来 解释 过 去 的 证 据 ， 因 为 捏造 一 个 能 做 到 这 些 的 理论 非常 容 
易 。 理 论 还 必须 做 出 新 的 预测 ， 而 且 只 有 这 些 预测 经 过 实验 验证 后 ， 你 
才 接 受 它 们 《即使 那样 ， 也 只 是 暂时 的 ， 因 为 未 来 的 证 据 会 对 其 进行 证 
1 

爱 因 斯 坦 的 广义 相对 论 也 只 是 在 亚 琶 : 爱 丁 顿 对 其 证 实 之 后 才 广 泛 


被 人 们 接受 。 爱 丁 顿 以 经 验 为 主 ， 证 实 广义 相对 论 的 预测 是 对 的 ， 预 测 
表明 太阳 使 来 日 冰 远 星球 的 光线 变 弯 了 。 但 是 你 也 不 必 等 待 新 数据 的 到 


来 ， 以 决定 能 否 信 任 学 习 算 法 。 你 可 以 利用 自己 拥有 的 数据 ， 将 其 分 成 
一 个 训练 集 和 一 个 测试 集 ， 然 后 前 者 交 给 学 习 算法 ， 把 后 者 隐藏 起 来 不 
让 学 习 算法 发 现 ， 用 来 验证 其 准确 度 。 留 存 数据 的 准确 度 就 是 机 器 学 习 
中 的 “ 真 金 标准 >?。 你 可 以 写 一 篇 天 于 你 发 明 的 伟大 的 新 型 学 习 算法 的 文 
章 ， 但 如 果 你 的 算法 的 留存 数据 不 如 之 前 的 算法 的 留存 数据 准确 ， 那 么 
这 篇 文章 也 没有 什么 出 版 价值 。 


此 前 不 可 见 数 据 的 准确 度 测试 确实 是 一 个 相当 严格 的 考验 ， 实 际 
上 ， 科 学 的 很 多 方面 都 因此 没有 经 得 住 考验 。 这 并 不 意味 着 科学 就 没有 
用 了 ， 因 为 科学 不 仅仅 是 用 来 预测 的 ， 还 能 用 来 解释 和 理解 。 但 是 最 
后 ， 你 的 模型 如 果 无 法 对 新 的 数据 做 出 准确 预测 ， 就 无 法 保证 自己 真 的 
理解 或 者 解释 了 隐藏 在 背后 的 现象 。 对 于 机 器 学 习 来 说 ， 对 不 可 见 数据 
的 测试 是 必 不 可 少 的 ， 因 为 这 是 判断 学 习 算 法 是 否 过 拟 合 的 唯一 方法 。 


即使 测试 集 准 确 度 也 会 出 问题 。 据 次， 在 早期 军事 应 用 中 ， 一 种 简 
单 的 学 习 算 法 探测 到 坦克 的 训练 集 和 测试 集 的 准确 度 都 为 100%， 两 个 
集 都 由 100 张 图 片 组 成 。 恢 讶 ? 还 是 怀疑 ? 结果 是 这 样 的 一 一 所 有 有 址 
区 的 图 片 都 比 没 有 坦克 的 图 片 冠 ， 所 以 学 习 算 法 融 都 挑 了 较 亮 的 图 片 。 
目前 我 们 有 更 大 的 数据 集 ， 但 并 不 意味 数据 收集 的 质量 会 更 好 ， 上 所 以 得 
当心 。 在 机 喜 学 习 从 新 生 领 域 成 长 为 成 熟 领域 的 过 程 中 ， 务 实 的 经 验 评 
价 会 起 到 重要 的 作用 。 扎 溯 至 20 世 纪 80 年 代 ， 每 个 学 派 的 研究 人 员 很 多 
时 候 都 相信 自己 华而不实 的 理论 ， 假 装 目 己 的 研究 范式 从 根本 上 说 是 更 
好 的 ， 所 以 与 其 他 学 派 的 交流 也 很 少 。 雷 : 称 尼 、 故 德 ' 沙 弗 里 死 等 符号 
学 者 开始 系统 地 对 不 同 算法 的 相同 数据 集 进行 比较 ， 令 人 惊讶 的 是 ， 真 
正 的 说 家 还 没有 出 现 。 如 今 欧 争 在 继续 ， 但 “ 异 花 授 粉 ”的 情况 也 很 多 。 
利用 加 州 大 学 欧文 分 校 的 机 器 学 习 小 组 维护 的 普通 实验 框架 和 大 型 数据 
集 存 储 库 ， 我 们 会 取得 重大 进步 。 而 且 正如 我 们 看 到 的 ， 创 造 通用 学 习 
算法 的 最 大 希望 在 于 综合 不 同 研 究 范式 的 观点 。 


当然 ， 知 道 你 何 时 过 拟 合 这 一 点 还 不 足够 ， 我 们 需要 第 一 时 间 避 免 


过 拟 合 。 这 就 意味 着 不 再 对 数据 进行 完全 拟 合 ， 即 便 我 们 能 做 到 。 有 一 
个 方法 就 是 运用 统计 显著 性 检验 来 确保 我 们 看 到 的 模型 真实 可 靠 。 例 
如 ， 拥 有 300 个 正面 例子 、100 个 反面 例子 的 规则 ， 和 拥有 3 个 正面 例 
子 、1 个 负面 例子 的 规则 一 样 ， 它 们 训练 数据 的 准确 率 都 达到 75%， 但 
第 一 个 规则 几乎 可 以 肯定 比 抛 硬币 好 用 ， 而 第 二 个 则 不 然 ， 因 为 抛 4 次 
人 硬币， 可 以 很 容易 得 出 3 次 正面 朝 上 。 在 构建 规则 时 ， 如 果菜 一 时 刻 无 
法 找到 能 提高 该 规则 准确 度 的 条 件 ， 那 么 我 们 只 能 停 下 ， 即 便 它 还 包括 
一 些 负 面 例子 。 这 样 做 会 降低 规则 的 训练 集 准 确 度 ， 也 可 能 让 它 变 成 一 
个 更 能 准确 概括 的 规则 ， 这 是 我 们 关心 的 。 


虽然 如 此 ， 我 们 还 没有 大 功 告 成 。 如 果 我 尝试 了 一 条 规则 ，400 个 
例子 中 的 准确 率 是 75%， 可 能 会 相信 这 个 规则 。 但 如 果 我 尝试 了 100 万 
条 规则 ， 其 中 最 佳 的 规则 中 ，400 个 例子 中 的 准确 率 是 75%， 可 能 就 不 
会 相信 这 个 规则 ， 因 为 这 很 有 可 能 是 偶然 发 生 的 。 这 也 是 你 在 挑 共同 基 
金 时 遇 到 的 问题 。Clairvoyant 基 金 连续 10 年 获得 高 于 市 场 平 均 水 平 的 收 
益 。 哇 ! 这 个 基金 的 经 理 一 定 是 个 天 才 ， 不 是 吗 ? 如 果 你 有 1000 种 基金 
可 以 选择 ， 很 有 可 能 你 选 的 那个 会 比 Clairvoyant 基 金 的 收益 还 要 高 ， 即 
使 那些 基金 都 由 玩 飞 镖 的 猴子 秘密 经 营 。 科 学 文献 也 被 这 个 问题 困扰 
着 。 显 著 性 检验 是 决定 一 项 研究 结果 是 否 值 得 出 版 的 “黄金 标准 ”， 但 如 
果 几 个 组 找 一 个 结果 ， 而 只 有 一 个 组 找到 了 ， 那 么 很 有 可 能 它 并 没有 找 
到 。 虽 然 你 阅读 他 们 看 起 来 很 可 靠 的 文章 ， 但 是 绝 不 会 猜 到 那样 的 结 
果 。 有 一 个 解决 方法 : 出 版 有 肯定 结果 的 文章 ， 同 时 发 表 有 否定 结果 的 
文章 ， 那 样 你 就 会 知道 所 有 演 试 失败 的 例子 ， 但 这 种 做 法 没有 流行 起 
来 。 在 机 器 学 习 中 ， 我 们 可 以 把 自己 尝试 了 多 少 条 规则 记录 下 来 ， 然 后 
相应 地 调整 显著 性 检验 ， 不 过 那样 做 ， 这 些 检验 可 能 会 把 可 靠 的 规则 连 
同 不 可 靠 的 一 起 丢弃 。 更 好 的 方法 就 是 认识 到 有 些 错误 的 假设 会 不 可 避 
免 成 立 ， 但 要 控制 它们 的 数量 ， 方 法 就 是 否定 低 显 著 性 的 假设 ， 然 后 对 
剩 下 的 假设 做 进一步 的 数据 检测 。 


另外 一 个 流行 的 方法 就 是 选择 更 加 简单 的 假设 。“ 分 而 治之 ”算法 会 


含蓄 地 选择 更 简单 的 规则 ， 因 为 它 在 一 出 现 只 有 正面 例子 的 情况 时 ， 惑 
会 停止 添加 和 条件， 在 一 出 现 包含 所 有 正面 例子 的 情况 时 ， 就 会 停止 添加 
规则 。 但 为 了 和 过 拟 合 做 斗争 ， 我 们 要 对 更 简单 的 规则 有 更 强 的 偏好 ， 
这 样 就 能 在 所 有 负面 例子 被 包含 之 前 ， 惑 停止 添加 条 件 。 例 如 ， 我 们 可 
以 稍微 降低 规则 的 准确 度 ， 来 缩短 规则 的 长 度 ， 然 后 把 这 种 做 法 当 作 一 
个 测评 指标 。 


对 较 简单 假设 的 俩 好 束 是 众人 和 缘 知 的 奥 卡 姆 剃刀 原理 〈Ocam's 
razor) ， 但 在 机 器 学 习 背 景 下 ， 这 有 点 误导 性 。“ 如 无 必要 ， 纪 增 实 
体 *”， 因 为 闲 刀 常常 会 被 蔡 换 ， 仪 意味 看 挑选 能 够 拟 合 数 据 的 最 人 简 原 
理 。 奥 卡 姆 可 能 对 这 样 的 想法 感到 迷惑 ， 也 就 是 我 们 会 偏 各 那些 不 那么 
能 完整 解释 论据 的 理论 ， 因 为 这 个 理论 的 概括 性 更 好 。 简 单 的 理论 更 受 
欢迎 ， 因 为 它们 对 于 我 们 来 说 ， 人 花费 的 认 知 成 本 更 低 ， 对 于 我 们 的 算法 
来 说 ， 人 花费 的 计算 成 本 更 低 ， 这 不 是 因为 我 们 想 让 这 些 理论 更 准确 。 相 
反 ， 即 使 是 我 们 最 复杂 的 模型 ， 也 往往 是 在 事实 过 分 简化 之 后 得 到 的 。 
甚至 在 那些 能 够 完美 拟 合 数据 的 理论 中 ， 我 们 由 “天 下 没有 免费 的 午 
餐 ” 这 个 定理 ， 知 道 没 有 什么 能 够 保证 最 简单 的 理论 最 擅长 概括 ， 而 实 
际 上 ， 有 些 最 佳 的 学 习 算 法 ， 比 如 推进 和 支持 向 量 机 ， 能 了 解 那些 看 起 
来 过 于 复杂 的 模型 〈 在 第 七 章 和 第 九 章 中 我 们 会 了 解 它 们 为 什么 有 这 样 
的 功能 


如 果 你 的 学 习 算 法 检测 集 准 确 度 不 尽 如 人 意 ， 你 就 得 诊断 问题 在 哪 
里 。 是 因为 无 知 ， 还 是 因为 幻想 ? 在 机 咒 学 习 中 ， 这 些 的 专业 叫 法 
为 “偏差 "和 “方差 *。 某 座 钟 如 果 总 是 慢 一 个 小 时 ， 那 么 它 的 偏差 会 很 
高 ， 但 方 兰 会 很 低 。 但 如 果 这 座 钟 走 得 时 快 时 慢 ， 最 后 平均 下 来 准点 
了 ， 那 么 它 的 方差 会 很 蜗 ， 但 偏差 会 很 低 。 假 设 你 和 一 些 朋友 在 酒吧 哆 
酒 、 玩 飞镖 。 他 们 不 知道 你 已 经 练 了 多 年 飞镖 ， 所 以 非常 熟练 。 你 的 所 
有 飞镖 都 打 到 部 心 ， 你 的 偏差 和 方差 都 很 低 ， 效 果 图 3-1c 所 示 。 


高 侦 关 


图 3 -1 


你 的 朋 肥 本 也 玩 得 很 好 ， 但 他 喝 得 有 点 多 。 他 的 儿 射 完了 ， 他 大 声 
说 ， 平 均 下 来 是 他 射 中 了 靶 心 (也 许 他 本 该 是 一 位 统计 学 家 〉 。 这 是 低 
偶 竺 、 高 方 关 的 例子 ， 如 图 3-1d 所 示 。 本 的 女 朋 友 艾 希 莉 射 得 很 稳 ， 但 
财 的 时 候 过 于 偏向 右上 角 。 她 的 方差 低 ， 但 偏差 高 〈 见 图 3-1a) 。 科 
迪 ， 从 外 地 来 ， 从 来 没有 玩 过 飞镖 ， 射 的 镖 都 位 于 中 心 上 方 ， 俩 离 中 
心 ， 他 的 仿 差 和 方差 都 高 ( 见 图 3-1b》〉。 


你 可 以 估算 一 种 学 习 算法 的 偏差 和 方差 ， 方 法 就 是 在 掌握 训练 集 的 
随机 变量 之 后 ， 对 算法 的 预测 进行 对 比 。 如 果 算 法 一 直 出 错 ， 那 么 问题 


就 出 在 偏差 上 ， 而 你 需要 一 个 更 为 灵活 的 学 习 算法 (或 者 只 和 原来 的 不 
一 样 即 可 ) 。 如 条 出现 的 错误 无 模式 可 衢 ， 问 题 束 出 在 方 关 上 ， 而 你 要 
么 尝试 一 种 不 那么 灵活 的 学 习 算 法 ， 要 么 获取 更 多 的 数据 。 大 多 数学 习 
算法 都 有 一 个 “把 手 ”"， 通 过 旋转 “把 手 ”"， 你 可 以 调节 这 些 算法 的 灵活 
度 ， 例如， 显著 性 检验 的 界限 值 ， 或 者 对 于 模型 规模 的 惩 训 方 式 。 扭 
动 “ 把 手 ” 是 你 尝试 的 第 一 个 方法 。 


归纳 是 诸 癌 的 泗 绎 


更 深层 的 问题 是 ， 多 数学 习 算法 开始 时 掌握 的 东西 很 少 ， 即 使 转 再 
多 “把 手 ”， 也 没 法 让 这 些 算 法 到 达 终 点 。 没 有 成 年 人 大 脑 中 所 储存 知识 
的 指导 ， 这 些 算 法 很 容易 误 入 歧途 。 虽 然 多 数学 习 算 法 会 误 入 歧途 ， 但 
只 是 假设 你 明白 真理 的 形式 《例如 ， 那 是 一 小 组 规则 ) ， 还 不 足以 达到 
令 人 震 尺 的 程度 。 严 格 的 经 验 主义 者 会 说 ， 开 始 时 知之 其 少 ， 这 是 所 有 
新 生 儿 都 有 的 特点 ， 因 为 这 个 特点 深 深 存 在 于 其 大 脑 结构 中 ， 而 孩子 确 
实 会 比 成 人 更 容易 犯 过 拟 合 的 错误 ， 但 我 们 想 学 得 比 孩 子 快 〈18 年 是 很 
长 的 一 段 时 间 ， 而 且 还 没 把 大 学 教育 时 间 计 算 在 内 ) 。 主 算法 应 该 能 以 
大 量 的 知识 作为 启动 〈 无 论 这 些 知识 由 人 类 来 提供 ， 还 是 之 前 已 经 掌 
握 ) ， 然 后 在 对 数据 做 出 新 概括 时 ， 用 到 这 些 知 识 。 这 就 是 科学 家 做 的 
工作 ， 这 相当 于 从 零 开 始 做 。“ 分 而 治之 ”原则 的 归纳 算法 做 不 到 这 一 
点 ， 但 还 有 别 的 掌握 规则 的 方法 能 做 到 。 


问题 的 关键 在 于 认识 到 ， 归 纳 仅 仪 是 逆 同 演绎 ， 就 和 减法 是 加 法 的 
逆 运 算 ， 或 者 积分 是 微分 的 逆 运 算 一 样 。 这 个 观点 由 威廉 姆 :斯坦 利 : 态 
文 斯 于 19 世 纪 末 首次 提出 。 史 带 夫 : 蕊 格 尔 顿 和 雷 . 邦 坦 (一 个 英国 一 澳 
大 利 亚 研 究 组 ) 在 此 基础 上 于 1988 年 设计 出 第 一 个 实用 算法 。 在 数学 这 
个 学 科 中 ， 通 过 已 知 条 件 进行 运算 ， 得 出 其 逆 疝 结果 的 方法 已 经 有 一 段 


传奇 的 历史 。 把 这 种 方法 运用 到 加 法 当中 就 有 了 整数 ， 因 为 如 果 没 有 人 负 
数 ， 加 法 就 不 可 逆 了 (3-4=-1) 。 同 样 ， 将 其 用 到 乘法 中 就 有 了 有 理 
数 ， 而 将 其 运用 到 平方 运算 中 殊 有 了 复数 。 让 我 们 来 看 看 能 人 否 将 这 种 方 
法 运用 到 演绎 中 。 演 绎 推理 的 一 个 典型 例子 就 是 : 


苏 格 拉 底 是 人 类 。 
所 有 人 类 都 会 死 。 


第 一 个 句子 是 关于 苏 格 拉 的 的 事实 ， 第 二 个 是 关于 人 类 的 一 般 规 
则 。 接 下 来 的 推理 是 怎样 的 ? 苏 格 拉 底 当然 也 会 死 ， 这 是 将 一 般 规 则 用 
到 苏 格 拉 底 号 上 得 出 的 。 相 反 ， 我 们 在 归纳 推理 中 会 以 最 初 事实 和 衍生 
事实 作为 开始 ， 然 后 找 一 个 规则 ， 让 我 们 由 前 者 推出 后 者 : 


苏 格 拉 底 是 人 类 。 


所 以 苏 格 拉 底 也 会 死 。 


有 这 样 一 个 规划;， 如果 苏 格 拉 压 是 人 类 ， 那 么 他 就 会 死 。 这 人 句 话 完 
成 了 推理 ， 但 并 不 是 很 有 用 ， 因 为 这 是 专门 针对 苏 格 拉 底 的 规则 。 但 现 
在 我 们 应 用 牛顿 定律 ， 然 后 将 该 定律 推广 到 所 有 实体 当中 : 如 果菜 实体 
是 人 类 ， 那 么 它 束 会 死 。 或 者 更 简洁 些 ; 所 有 人 类 都 会 死 。 当 然 ， 仅 通 
过 欠 格 拉 后 残 归 纳 出 该 规则 过 于 草率 ， 但 对 于 其 他 人 类 ， 我 们 知道 相似 
的 事实 : 


柏拉图 是 人 类 ， 他 会 死 。 
亚 里 士 多 德 是 人 类 ， 他 会 死 。 


以 此 类 推 .…… 


对 于 每 个 事实 ， 我 们 构建 这 样 的 规则 ， 让 我 们 由 第 一 个 事实 推出 第 
二 个 事实 ， 然 后 通过 牛顿 定律 将 其 推广 。 当 同一 条 通用 规则 一 次 又 一 次 
被 归纳 出 来 时 ， 我 们 有 信心 说 那 条 规则 说 的 是 真 的 。 


到 目前 为 止 ， 我 们 还 没有 做 任何 “分 而 治之 ”算法 无 法 做 到 的 事 。 可 
是 ， 如 果 我 们 不 知道 苏 格 拉 底 、 柏 拉 图 、 亚 里 士 多 德 是 人 类 ， 只 知道 他 
们 是 哲学 家 ， 那 会 怎样 ? 我 们 仍 会 得 出 结论 ， 说 他 们 也 会 死 ， 因 为 之 前 
我 们 就 归纳 过 或 者 别人 告诉 过 我 们 ， 所 有 人 都 会 死 。 这 也 是 一 种 有 效 推 
三 (至 少 在 我 们 解决 人 工 知 能 问题 ， 而 机 器 人 开始 从 事 哲 学 研究 之 前 
是 ) ， 而 且 这 也 在 我 们 的 推理 中 “填补 了 漏洞 ”: 


苏 格 拉 底 是 哲学 家 。 
所 有 哲学 家 都 是 人 。 
所 有 人 都 会 死 。 

所 以 苏 格 拉 底 会 死 。 


我 们 也 可 以 单纯 从 其 他 规则 中 归纳 男 一 些 规则 。 如 果 我 们 知道 所 有 
哲学 家 都 是 人 ， 而 且 会 死 ， 我 们 就 可 以 归纳 出 所 有 人 都 会 死 〈 我 们 不 会 
归纳 出 所 有 会 死 的 都 是 人 类 ， 因 为 我 们 知道 其 他 会 死 的 动物 ， 例 如 猫 和 
狗 。 丸 一 方面 ， 科 学 家 、 艺 术 家 等 也 是 人 类 ， 也 会 死 ， 因 此 这 条 规则 得 
到 加 强 ) 。 通 第 ， 我 们 以 越 多 的 规则 和 事实 作为 开头 ， 也 就 有 越 多 的 机 
会 运用 “ 逆 问 演绎 "归纳 新 的 规则 。 我 们 归纳 的 规则 越 多 ， 我 们 能 归纳 的 
规则 也 就 越 多 。 这 是 知识 创造 的 良性 循环 ， 只 受过 拟 合 风险 和 计算 成 本 
的 限制 。 可 是 在 这 里 ， 我 们 也 有 初始 知识 的 协助 : 如 果 我 们 有 很 多 小 的 
而 不 是 大 的 漏洞 要 修补 ， 归 纳 的 步 又 就 不 会 有 那么 大 的 风险 ， 所 以 过 拟 
合 的 可 能 性 也 会 降低 〈 例 如， 给 定 相同 数量 的 例子 ,，“ 所 有 哲学 家 部 是 


人 类 ”这 个 归纳 ， 融 比 * 所 有 人 都 会 死 * 这 个 归纳 风险 要 小 ) 。 


逆 运 算 往往 比较 困难 ， 因 为 逆 运 算 的 结果 不 止 一 个 。 例 如 ， 一 个 整 
数 有 两 个 平方 根 : 一 个 正 数 ， 一 个 负数 [2“= 〈-2) “=4] 。 最 为 人 所 知 
的 是 ， 对 一 个 函数 的 导数 积分 ， 只 会 将 函数 恢复 为 一 个 常数 。 函 数 的 导 
数 告 诉 我 们 该 函数 在 每 个 点 上 下 浮动 的 幅度 。 把 所 有 幅度 值 加 起 来 会 重 
新 得 到 函数 ， 除 非 我 们 不 知道 它 从 哪里 开始 变化 。 我 们 可 以 在 不 改变 导 
数 的 情况 下 ， 上 下 “滑动 ”积分 过 的 函数 。 为 了 简便 ， 我 们 可 以 假设 附加 
常量 为 0， 来 “取缔 ”函数 。 逆 癌 演 绎 存在 类 似 的 问题 ， 而 牛顿 定律 就 是 
一 个 解决 方法 。 例 如 ， 我 们 由 “所 有 希腊 的 哲学 家 都 是 人 类 ”和 “所 有 项 
背 哲 学 家 都 会 死 ?可 以 归纳 出 “所 有 人 类 都 会 死 ”， 或 只 能 归纳 出 “所 有 和 希 
腊 人 都 会 死 "。 可 是 为 什么 仅 满足 于 最 保守 的 归纳 ? 其 实 我 们 可 以 认为 
所 有 人 都 会 死 ， 直 到 遇 到 例外 《〈 据 雷 ' 库 兹 韦 尔 将 ， 这 个 意外 很 快 就 会 
出 现 ) 。 


同时 ， 逆 向 演绎 的 为 外 一 个 重要 的 应 用 ， 就 是 预测 新 研制 的 药物 是 
人 否 有 不 民 的 副作用 。 动 物 测 试 及 临床 试验 的 失败 ， 成 为 研制 新 药物 需要 
花费 多 年 、 数 十 亿美 元 的 主要 原因 。 通 过 归纳 已 知 有 毒 分 子 的 结构 ， 我 
们 可 以 得 出 规律 ， 迅 速 清除 明显 的 有 毒化 合 物 ， 大 大 提高 剩余 化 合 物 的 
临床 试验 成 功率 。 


掌握 治 人 鳄 焰 症 的 方法 


更 广泛 地 说 ， 逆 向 演绎 是 在 生物 学 中 发 现 新 知识 的 重要 方法 ， 这 也 
是 治愈 剖 症 要 迈 出 的 第 一 步 。 根 据 中 心 法 则 的 观点 ， 在 活 细胞 中 进行 的 
任何 活动 都 最 终 由 细胞 的 基因 控制 ， 通 过 发 起 香 白 质 的 合成 来 完成 。 一 
个 细胞 就 像 一 台 微 型 计算 机 ， 而 DNA 就 是 计算 机 运行 的 程序 : 改变 
DNA， 皮 肤 细胞 束 会 变 成 神经 元 细胞 ， 或 者 小 女 细 胞 会 变 成 人 类 细胞 。 


在 计算 机 的 程序 中 ， 所 有 的 故障 都 是 由 程序 员 引 起 的 。 但 在 细胞 中 ， 故 
障 可 目 行 产生 ， 比 如 当 辐 射 或 者 细胞 复制 误差 将 茶 基 因 变 成 另外 一 个 基 
因 时 ， 当 基因 偶然 被 复制 两 次 时 .…… 很 多 时 候 ， 变 异 会 导致 细胞 悄 无 声 
奶 地 有 死去， 但 有 时 候 细胞 开始 生长 ， 然 后 不 可 控制 地 分 裂 ， 这 样 剖 细胞 
就 产生 了 。 


治愈 癌症 意味 着 在 不 破坏 完好 细胞 的 情况 下 ， 阻 止 受 损 细胞 的 繁 
殖 。 这 就 需要 知道 完好 细胞 和 受 损 细 胞 的 区 别 在 哪里 ， 特 别 是 它们 染色 
体 组 的 区 别 在 哪里 ， 因 为 其 他 所 有 的 一 切 都 依 此 进行 。 幸 运 的 是 ， 基 因 
测序 变 得 越 来 越 普遍 、 越 来 越 实惠 。 利 用 基因 测序 ， 我 们 可 以 预测 哪 种 
药 对 哪 种 癌 基 因 起 作用 。 这 和 传统 的 化 学 疗法 不 一 样 ， 化 学 疗法 对 所 有 
细胞 的 影响 都 一 样 。 掌 握 哪 种 药物 对 哪 种 变异 有 效 ， 这 需要 关于 患者 的 
数据 库 、 他 们 的 癌 基 因 、 服 用 过 的 药物 以 及 药 效 。 最 简单 的 规则 对 基因 
与 药物 之 间 一 对 一 的 对 应 关系 进行 编码 ， 例 如 ， 如 果 出 现 BCR-ABL 基 
因 ， 那 么 服用 格 列 卫 这 种 药物 (BCR-ABL 引 发 一 种 白血病 ， 而 格 列 卫 
在 10 个 患者 中 能 治愈 9 个 患者 ) 。 一 旦 癌 基 因 排 序 和 治疗 结果 核对 达到 
标准 管理 ， 更 多 这 样 的 规则 会 被 发 现 。 


然而 ， 这 仅仅 是 一 个 开始 。 大 多 数 瘤 症 都 会 涉及 各 种 混合 的 变 腊 ， 
或 者 只 有 靠 菜 些 药物 才能 治愈 ， 而 这 些 药物 尚未 被 研发 出 来 。 下 一 步 就 
是 以 更 为 复杂 的 条 件 来 掌握 规则 ， 这 涉及 剖 基 因 组 、 患 者 的 基因 组 、 病 
史 、 药 物 的 已 知 副 作用 等 。 但 最 终 我 们 需要 的 ， 就 是 完整 细胞 运转 的 模 
型 ， 这 让 我 们 在 计算 机 上 对 特殊 病人 变异 的 影响 、 不 同 药物 组 合 的 效果 
进行 模仿 ， 无 论 是 真实 存在 的 ， 还 是 猜想 出 来 的 ， 都 进行 模仿 。 我 们 构 
建 此 类 模型 的 主要 信息 ， 主 要 源 于 DNA 测 序 仪 、 基 因 表 达 微 阵列 以 及 生 
物 学 文献 。 将 这 些 结合 起 来 ， 人 们 融会 看 到 逆 问 演绎 的 作用 。 


亚当 (我 们 在 第 一 章 中 提 到 过 的 机 器 人 科学 家 ) 吏 是 一 个 例子 。 亚 
当 的 目标 是 弄 明 日 酵母 粉 如 何 起 作用 。 机 费 人 以 酵母 遗传 学 、 新 陈 代 谢 
的 基本 知识 ， 以 及 一 批 酵母 细胞 的 基因 表达 数据 作为 开端 ， 运 用 逆向 演 


绎 来 假设 哪 种 基因 会 通过 哪 种 和 集 昌 质 来 表达 ， 然 后 设计 微 阵 列 实 验 来 对 
其 进行 检测 ， 接 着 修正 假设 ， 最 后 重复 以 上 步骤 。 是 个 每 个 基因 都 会 表 
达 出 来 ， 这 取决 于 其 他 基因 ， 以 及 所 处 的 环境 条 件 ， 由 此 产生 的 网 络 交 
互 可 表达 为 一 个 规则 集 ， 例 如 : 


如 果 温 度 高 ， 那 么 基因 A 就 会 表达 出 来 。 
如 果 基 因 A 表 达 出 来 ， 而 基因 B 没 表达 出 来 ， 则 基因 C0 表达 出 来 。 
如 果 基 因 C 表 达 出 来 ， 那 么 基因 D 不 会 表达 出 来 。 


如 果 我 们 知道 的 是 第 一 条 和 第 三 条 规则 ， 不 知道 第 二 条 ， 但 我 们 有 
微 阵列 数据 ， 数 据 显 示 在 高 温 条 件 下 ， 基 因 B 和 基因 DD 无 法 表达 ， 那 么 
我 们 就 可 以 通过 逆向 演绎 来 归纳 出 第 二 条 规则 。 一 旦 我 们 有 了 这 条 规 
则 ， 而 且 也 许 利用 微 阵 列 实 验证 实 了 这 条 规则 ， 那 么 我 们 就 能 用 它 作 为 
进一步 归纳 推理 的 基础 。 同 理 ， 我 们 也 可 以 将 化 学 反应 的 顺序 拼 竣 起 
来 ， 因 为 香 白 质 就 是 按照 这 些 顺 序 发 挥 作用 的 。 


即便 如 此 ， 仅 仪 知道 哪些 基因 调节 哪些 基因 ， 以 及 熏 白 质 如 何 组 织 
化 学 反应 中 的 细胞 网 络 还 不 够 。 我 们 还 需要 知道 ， 每 种 分 子 产生 的 量 有 
多 少 。DNA 微 阵列 和 其 他 实验 能 够 提供 这 种 数量 方面 的 信息 ， 但 逆 癌 演 
绎 ， 以 其 “ 非 有 即 无 ”的 逻辑 特点 ， 并 不 是 很 擅长 处 理 这 方面 的 事情 。 
此 我 们 要 用 到 联结 学 派 的 方法 ， 这 会 在 下 一 章 谈 到 。 


20 问 游戏 


逆 癌 演绎 的 妨 外 一 个 局 限 性 束 在 于 ， 它 涉及 很 密集 的 计算 ， 因 此 很 
难 扩展 到 海量 数据 集中 。 因 为 这 些 原因 ， 符 号 学 家 选择 的 算法 是 决策 树 


归纳 。 决 策 树 可 以 当 作 此 类 问题 的 答案 : 如 果 有 多 个 概念 的 规则 对 应 一 
个 实例 ， 那 怎么 办 ? 那么 我 们 怎么 知道 实例 对 应 哪个 概念 呢 ? 如 采 看 到 
一 个 部 分 封闭 的 物体 ， 它 有 一 个 平面 、 四 条 腿 ， 那 么 我 们 怎么 知道 它 是 
一 张 昌 子 ， 还 是 一 把 椅子 呢 ? 有 一 个 方法 ， 就 是 对 规则 进行 排序 ， 例 如 
以 准确 率 递 减 的 顺序 来 排列 ， 然 后 选择 符合 插 述 的 第 一 条 规则 。 力 一 个 
方法 ， 束 是 让 规则 上 自己 选择 。 决 策 树 通常 会 你 证 ， 每 个 实例 会 准确 对 应 
一 条 规则 。 也 就 是 说 ， 在 一 次 及 以 上 的 属性 测试 中 ， 如 宋 每 对 规则 存在 
区 别 ， 这 样 的 规则 集 将 被 组 织 成 一 柠 决 策 树 。 例 如 ， 看 看 以 下 这 些 规 
则 : 


如 果 你 支持 削减 税收 ， 反 对 堕胎 ， 那 么 你 属于 共和 党 。 
如 果 你 反对 削减 税收 ， 那 么 你 属于 民主 党 。 


如 果 你 支持 削减 税收 ， 提 倡 随 胎 合 法 ， 反 对 枪械 管制 ， 那 么 你 
属于 独立 人 士 。 


如 果 你 支持 削减 税收 ， 提 倡 厦 胎 合 法 ， 支 持 枪械 管制 ， 那 么 你 
生计 民 于 这 


这 些 可 以 组 成 一 些 决策 树 ， 如 图 3-2 所 示 。 


闭 减 积 收 


反对 降 胎 


枪械 窟 制 


Pi 
I 


图 3 -2 


决 朱 树 的 原理 就 像 玩 一 个 有 实例 的 20 问 游戏 。 从 “根部 ”开始 ， 每 个 
节点 都 会 问 每 个 属性 的 值 ， 然 后 根据 答案 ， 我 们 治 独 这 个 或 另外 一 个 分 
文 继续 下 去 。 当 到 达 “ 树 时? 部 分 时 ， 我 们 读 取 预测 的 概念 。 从 “ 根 
部 ?到 “树叶 ”的 每 条 路 线 都 对 应 一 个 规则 。 这 让 人 想起 那些 烦人 的 电话 
语音 提示 沫 单 ， 如 果 你 拨打 客户 服务 电话 ， 就 得 通过 这 些 沫 单 ， 这 些 沫 
单 与 诀 策 树 相 似 并 非 偶然 一 一 电话 语音 提示 荣 单 承 是 一 棵 决策 树 。 电 话 


线 另 一 头 的 计算 机 在 和 你 玩 20 问 游戏 ， 目 的 是 弄 明 白 你 想 要 做 什么 ， 每 
个 选项 就 是 一 个 问题 。 


根据 以 上 决策 树 ， 你 要 么 是 共和 党 人 ， 要 么 是 民主 党 人 人， 要么 是 独 
立 人 十。 你 无 法 选择 其 中 的 两 种 或 三 种 ， 或 者 一 个 都 不 选 。 拥 有 这 个 属 
性 的 概念 组 被 称 为 类 集 ， 而 预测 类 集 的 算法 称 为 分 类 器 。 单 个 概念 隐 合 
两 类 定义 : 概念 本 身 及 其 反面 “例如 ， 世 圾 邮件 和 非 垃圾 邮件 ) 。 分 类 
需 是 机 器 学 习 了 最 为 普遍 的 方式 。 


利用 “分 而 治之 ”算法 的 一 个 变 体 ， 我 们 残 可 以 掌握 决策 树 了 。 首 
先 ， 我 们 选 一 个 属性 ， 在 决策 树 的 “根部 ”进行 测试 。 然 后 我 们 关注 每 个 
分 文 上 的 例子 ， 为 那些 例子 选择 下 一 个 测试 〈 例 如 ， 我 们 看 看 文 持 削 减 
税收 的 人 是 否 反 对 咋 胎 或 者 支持 堕胎 合法 ) 。 我 们 在 归纳 推理 出 的 每 个 
新 节点 上 重复 这 个 步骤 ， 一 直到 分 文 上 的 所 有 例子 都 有 同一 个 类 别 ， 此 
时 我 们 就 可 以 用 该 类 别 来 命名 该 分 文 了 。 


有 一 个 突出 的 问题 ， 那 束 是 如 何 挑 选 最 佳 属性 以 便 在 市 点 处 进行 测 
试 。 准 确 度 (准确 预测 例子 的 数量 〉 并 不 能 起 到 很 好 的 作用 ， 因 为 我 们 
不 是 在 尝试 预测 茶 个 特殊 类 别 ， 而 是 在 尝试 慢 慢 分 离 每 个 类 别 ， 直 到 每 
个 分 支 都 变 得 “纯粹 "。 这 使 人 想起 信息 论 中 炳 的 概念 。 一 组 对 象 的 业 ， 
就 是 用 来 衡量 混乱 度 的 单位 。 如 果 150 人 的 组 里 面 有 50 个 共和 党 人 、50 
个 民主 尝 人 、50 个 独立 人 士 ， 那 么 这 个 组 的 政治 糯 会 达到 最 大 。 男 一 方 
面 ， 如 果 这 个 组 全 部 是 共和 党 人 ， 那 么 烂 就 变 成 零 〈 这 就 是 党 派 联 合 的 
目的 ) 。 所 以 为 了 学 习 一 柠 好 的 决策 树 的 优点 ， 我 们 在 每 个 节点 选择 这 
样 的 属性 : 在 其 所 有 分 文中 ， 产 生 的 燃 在 平均 值 上 属性 最 低 ， 取 决 于 每 
个 分 文 上 有 多 少 例子。 


和 规则 学 习 一 样 ， 我 们 不 想 归 纳 出 一 标 树 ， 可 以 准确 地 预测 所 有 训 
练 例子 的 类 别 ， 因 为 这 样 的 树 很 有 可 能 会 过 拟 合 。 和 之 前 一 样 ， 为 了 防 
止 这 样 的 事情 发 生 ， 我 们 可 以 利用 显著 性 检验 或 针对 树 的 大 小 设立 惩 避 
制度 。 


如 果 属 性 离散 ， 属 性 的 每 个 值 都 有 一 个 分 文 ， 这 没关系 ， 但 如 果 是 
数值 属性 该 怎么 办 ? 如 宁 连 续 变 量 的 每 个 值 都 有 一 个 分 文 ， 诀 策 树 将 变 
得 无 限 守 。 一 个 简单 的 方法 束 是 通过 燃 来 选择 儿 个 临界 值 ， 然 后 使 这 些 
临界 值 起 作用 。 例 如 ， 患 者 的 体温 是 蜗 于 还 是 低 于 100 华 氏 度 ? 这 个 体 
温 数 和 其 他 症状 一 起 ， 也 许 是 所 有 医生 都 要 知道 的 ， 通 过 体温 可 以 断定 
患者 是 否 感染 疾病 。 


决策 树 可 应 用 在 许多 不 同 的 领域 。 在 机 需 学 习 领 域 ， 决 策 树 源 于 心 
理学 方面 的 知识 。 尼 和 尔 : 享 特 及 其 同事 于 20 世 纪 60 年 代 利 用 了 决策 树 ， 
目的 是 为 了 模拟 人 类 如 何 掌握 新 的 概念 。 另 外 ， 享 特 其 中 的 一 个 研究 生 
罗斯 ' 昆 兰 后 来 答 试 把 决策 树 用 于 象棋 中 。 他 最 初 的 目的 是 为 了 从 棋盘 
占 位 预测 王 车 大 战 骑 士 的 后 宁 。 据 调查 ， 决 策 树 已 经 由 一 开始 这 些微 不 
足 道 的 用 途 ， 发 展 成 为 机 器 学 习 算 法 中 应 用 最 为 广泛 的 方法 。 要 知道 原 
因 并 不 困难 : 决策 树 易 于 理解 ， 可 以 快速 和 掌握， 而且 通 常 无 须 太 多 调整 
就 可 以 做 到 准确 无 误 。 昆 兰 是 符号 学 派 中 最 章 越 的 研究 者 。 作 为 一 个 沉 
稳 、 务 实 的 澳大利亚 人 ， 因 为 对 决策 树 年 复 一 年 不 断 地 改进 ， 并 写 了 和 
决策 树 有 关 、 逻 辑 清晰 的 论文 ， 使 决策 树 成 为 分 类 活动 中 的 “黄金 标 
准 ”。 


无 论 你 想 预 测 什么 ， 人 们 利用 决 集 树 来 预测 的 可 能 性 会 很 大 。 微 软 
的 Kinect 利 用 决策 树 ， 通 过 其 深度 相机 的 输出 信息 ， 可 以 弄 明 白 你 映 体 
的 各 个 部 位 在 哪里 ， 然 后 利用 这 些 部 位 的 动作 来 控制 Xbox 游戏 机 。 在 
2002 年 的 一 场 正面 交锋 中 ， 决 策 树 准 确 预 测 了 3/4 的 最 高 法 院 裁决 ， 而 
一 个 专家 小 组 的 准确 率 却 不 到 60%。 数 千 个 决策 树 使 用 者 不 可 能 会 出 
错 ， 你 仔细 想 想 ， 然 后 男 一 棵 树 来 预测 朋友 的 答复 《〈 如 果 你 想 约 她 出 去 
的 话 ) 。 如 图 3-3 所 示 。 


周末 


TE 日 


图 3 -3 
根据 这 棵 树 的 结果 ， 今 晚 她 会 答应 你 出 去 约会 。 深 呼吸 ， 拿 起 手 


机 ， 拨 通 她 的 电话 吧 。 


从 写 和 学派 


符号 学 派 的 核心 理念 就 是 ， 所 有 和 智力 相关 的 工作 都 可 以 归结 为 对 
符号 的 操纵 。 数 学 家 在 解 方程 时 ， 会 移动 符号 ， 然 后 根据 预先 定义 的 规 
则 ， 用 其 他 符号 来 代 蔡 这 些 符号 。 逻 辑 学 家 进行 推论 时 也 是 同样 的 道 


理 。 根 据 这 个 假设 ， 乔 力 是 独立 于 基质 的 。 符 号 处 理 是 通过 写 在 黑板 上 
进行 的 ， 还 是 通过 打开 或 关闭 唱 体 管 、 放 电 神经 元 ， 或 者 玩 玩 积木 加 能 
完成 的 ， 这 些 都 不 重要 。 如 宁 你 能 利用 万 能 图 灵机 的 力量 来 进行 设置 ， 
那么 就 能 做 任何 事情 。 软 件 可 以 和 硬件 清晰 地 分 离 。 如 果 你 关注 的 重点 
是 想 弄 明日 机 絮 是 怎样 学 习 的 ， 你 “ 谢 天 谢 地 ) 不 用 担心 后 者 无 法 在 亚 
马 撑 的 云 服 务 上 购买 个 人 计算 机 或 者 日 行车 。 


符号 学 机 器 学 习 者 和 许多 其 他 计算 机 科学 家 、 心 理学 家 、 哲 学 家 一 
样 ， 痢 相信 符号 操纵 的 力量 。 心 理学 家 大 卫 ' 马 尔 称 ， 每 个 信息 处 理 系 
统 应 该 经 过 三 个 不 同 水 平 的 研究 : 该 系统 解决 所 解决 问题 的 基本 属性 ， 
用 来 解决 问题 的 算法 和 表示 方法 ， 以 及 这 些 算法 和 表示 方法 如 何 实现 。 
例如 ， 加 法 可 以 由 一 组 公理 来 定义 ， 和 加 法 如 何 进行 无 天 ;数字 可 以 以 
不 同方 式 进行 表达 例如， 罗马 数字 和 阿拉 伯 数 字 ) ， 还 可 以 用 不 同 算 
法 进行 相 加 ， 而 这 些 运算 可 以 通过 算盘 、 袖 珍 计 算 器 ， 或 者 效率 更 低 的 
方式 一 一 你 的 大 脑 来 进行 。 根 据 马 尔 的 水 平 理论 ， 学 习 是 我 们 能 够 研究 
的 认 知 能 力 的 典型 例子 ， 而 且 对 我 们 来 说 受益 菲 浅 。 


符号 主义 机 器 学 习 是 人 工 智 能 知识 工程 学 派 的 一 个 分 支 。20 世 纪 70 
年 代 ， 所 谓 的 基于 知识 的 系统 取得 蛋 越 成 绩 ， 而 到 了 80 年 代 ， 它 们 迅速 
传播 ， 后 来 却 消失 了 。 它 们 消失 的 主要 原因 是 人 人 逃避 的 知识 习 得 瓶 
颈 : 从 专家 吴 上 提取 知识 ， 然 后 将 其 编码 成 为 规则 ， 这 样 做 难度 太 大 、 
太 费 力 、 易 出 故障 ， 会 引起 很 多 问题 。 让 计算 机 目 行 学 习 ， 比 如 通过 碍 
看 过 往 患 者 症状 及 其 相应 疗效 的 数据 库 ， 就 可 以 进行 疾病 诊断 ， 比 无 数 
次 地 找 医 生 要 容易 很 多 。 突 然 之 间 ， 诸 如 理 夏 德 : 米 哈 尔 斯 基 、 汤 姆 米 
切 尔 、 罗 斯 : 昆 兰 之 类 的 先驱 人 物 ， 他 们 的 工作 有 了 新 的 联系 ， 而 这 个 
领域 自 此 没有 停止 故 展 过 〈( 男 外 一 个 重要 的 问题 就 是 基于 知识 的 系统 在 
处 理 不 确定 性 时 会 有 问题 ， 在 第 六 章 会 深入 探讨 这 个 问题 ) 。 


因为 其 起 源 和 指导 原则 ， 符 号 学 派 和 其 他 学 派 相 比 ， 和 人 工 智能 的 
其 他 方面 关系 更 为 密切 。 如 果 计 算 机 科学 是 一 块 大 陆 ， 符 与 主义 机 带 学 


习 和 知识 工程 学 会 有 很 长 的 交界 线 。 知 识 通 过 两 个 方向 进行 交易 手 
动 输入 的 知识 ， 供 学 习 算 法 使 用 ， 还 有 归纳 得 出 的 知识 ， 用 来 加 入 知识 
库 中 ， 但 最 终 理 性 主义 者 和 经 验 主义 者 的 断层 线 会 刚好 落 在 这 条 界线 
上 ， 想 越过 这 条 界线 则 不 容易 ， 


符 写 主义 是 通 往 终极 算法 的 最 短路 程 。 它 不 要 求 我 们 弄 明 白 进化 论 
和 大 脑 的 工作 原理 ， 而 且 也 避免 了 贝 叶 斯 主义 的 数学 复杂 性 。 规 则 集合 
决策 树 易于 理解 ， 所 以 我 们 知道 学 习 算法 要 做 什么 。 这 样 它 可 以 轻易 算 
出 自己 做 对 或 做 错 什么 ， 找 出 故障 ， 得 出 准确 结 


尽管 决策 树 很 受 欢 迎 ， 但 逆向 演绎 是 寻找 主 算法 更 好 的 出 发 尽 。 因 
为 逆 问 演绎 具备 这 样 的 关键 属性 : 可 以 轻易 地 将 知识 并 入 主 算法 中 ， 而 
且 我 们 知道 休 庶 问题 使 这 一 点 变 得 很 有 必要 。 太 外， 规则 集 和 决 集 树 相 
比 ， 表 达 多 数 概念 的 方式 要 简洁 很 多 。 把 一 棵 决策 树 转 变 成 一 个 规则 集 
很 容易 ， 每 条 从 “根部 ”到 “叶子 ”的 路 线 是 一 条 规划， 而 且 路 线 不 会 月 
误 。 另 外 ， 最 坏 的 情况 是 ， 把 一 个 规则 集 转 化 成 一 株 决 策 树 ， 需 要 把 每 
条 规则 变 成 一 析 迷 你 决策 树 ， 然 后 用 规则 2 决策 树 的 副本 来 代 丛 规则 1 诀 
傈 树 的 每 片 叶 子 ， 用 规则 3 决策 树 的 副本 来 代 蔡 规则 2 决策 树 每 个 副本 的 
每 片 叶 子 ， 以 此 类 推 ， 这 样 会 引起 大 范围 山 满 。 


逆向 演绎 束 像 一 个 超级 科学 家 ， 系 统 但 看 论据 ， 轧 考 可 行 的 归纳 
法 ， 整 理 最 有 利 的 证 据 ， 然 后 将 这 些 和 其 他 论据 一 起 ， 进 一 步 提 出 假设 
一 一 所 有 过 程 都 基于 计算 机 的 速度 。 逆 向 演绎 简洁 而 美观 ， 至 少 符合 符 
号 学 者 的 品位 。 此 外 ， 逆 向 演绎 也 有 一 些 严 重 的 缺点 。 可 行 的 归纳 法 数 
量 广泛 ， 除 非 我 们 和 了 最 初 知 识 保持 杀 密 关系 ， 人 否则 很 容易 在 空间 中 类 
失 。 逆 问 演 绎 容易 航 噪 声 迷 惑 : 我 们 怎样 才能 知道 ， 哪 些 演绎 步 又 被 漏 
掉 了 ， 如 果 前 提 或 者 结论 本 身 融 已 出 错 ? 最 严重 的 是 ， 真 正 的 概念 很 少 
能 通过 一 个 规则 集 来 定义 。 它 们 不 是 黑 ， 也 不 是 日 ， 比 如 垃圾 邮件 和 非 
垃圾 邮件 之 间 有 一 片 很 大 的 灰色 区 域 。 要 获取 真正 的 概念 ， 就 得 权衡 并 
收集 有 弱点 的 论据 ， 直 到 出 现 清 晰 的 定义 。 疾 病 的 诊断 ， 涉 及 把 重点 放 


在 一 些 症状 上 面 ， 然 后 放弃 那些 不 完整 的 论据 。 还 没有 人 能 只 学 习 一 个 
规则 组 ， 就 能 通过 观看 图 片 的 像素 来 认 出 一 只 猫 ， 而 且 可 能 以 后 也 没 人 
能 做 到 。 


联结 学 派对 符号 学 派 尤 其 不 满 。 根 据 他 们 的 观点 ， 你 能 通过 逻辑 规 
则 来 定义 的 概念 仅仅 是 冰山 一 角 ， 其 实 表面 之 下 还 有 很 多 东西 是 形式 推 
理 无 法 看 到 的 。 而 同样 的 道理 ， 我 们 脑子 里 所 想 的 东西 也 是 潜意识 的 。 
你 不 能 仅 徘 构造 一 个 空洞 的 机 械 化 科学 家 ， 就 想 让 他 把 所 有 有 意义 的 事 
情 完 成 ， 你 首先 得 给 他 点 什么 东西 ， 例 如 一 个 真正 的 大 脑 ， 能 和 真实 的 
感觉 相连 ， 在 真实 世界 中 成 长 ， 甚 至 可 能 要 常常 绊 他 的 脚 。 你 怎样 才能 
构造 这 样 的 大 脑 呢 ? 通过 逆向 分 析 。 如 果 想 对 一 辆 车 进行 道 向 分 析 ， 你 
束 应 看 看 发 动机 蓄 下 面 。 如 果 想 对 大 脑 进行 逆向 分 析 ， 你 束 要 看 看 脑 元 
里 面 。 


第 四 章 
联结 学派 : 大 脑 如 何 学 习 


赫 布 律 ， 就 如 它 为 人 们 所 知 的 那样 ， 是 联结 主义 的 芮 基石。 确实 ， 
联结 主义 相信 知识 储存 在 神经 元 之 间 的 联结 关系 中 ， 它 也 因此 而 得 名 。 
唐纳德 : 赫 布 (Donald Hebb) 是 加 拿 大 的 心理 学 家 ， 他 在 1949 年 出 版 的 
《行为 的 组 织 》 (The Organization of Behavior) 一 书 中 这 样 说 道 :“ 当 A 
细胞 的 轴 突 和 B 细 胞 足够 近 ， 并 且 重 复 或 不 断 地 对 其 放电 时 ，A、B 中 的 
一 个 细胞 或 者 两 个 细胞 都 会 经 历 生 长 过 程 或 者 代谢 改变 ， 这 样 A 细胞 
(作为 对 B 细 胞 放电 的 细胞 之 一 ) 的 效率 就 会 得 到 提高 。” 这 段 话 经 常 被 
转述 成 “一 起 放电 的 神经 元 也 会 被 串 连 在 一 起 ”。 


赫 布 律 是 心理 学 和 神经 科学 思想 的 融合 ， 其 中 挫 杂 了 合理 的 猜想 。 
通过 连接 来 进行 学 习 ， 是 英国 经 验 主义 者 最 喜爱 的 话题 ， 从 洛 元 和 休 蛮 
到 约翰 : 穆 勒 都 是 如 此 。 威 廉 : 詹 姆 斯 (William James) 在 其 著作 《心理 
学 原理 》 (Principles of Psychology) 中 ， 阅 明了 连接 的 主要 原理 ， 这 和 
赫 布 律 十 分 相似 ， 只 是 大 脑 活动 被 神经 元 取代 ， 放 电 效 率 被 兴奋 的 传播 
取代 。 差 不 多 同时 ， 伟 大 的 西班牙 神经 学 科学 家 圣地 亚 哥 : 拉 蒙 : 卡 哈 尔 
第 一 次 对 脑 部 进行 详细 观察 ， 利 用 当时 发 明 的 高 尔 基 染 色 法 来 对 单个 神 
经 元 进行 染色 ， 把 他 所 看 到 的 编 成 目录 ， 就 像 植物 学 家 对 树木 的 新 品种 
进行 分 类 一 样 。 赫 布 时 期 ， 神 经 学 科学 家 对 神经 元 如 何 发 挥 功能 有 了 彻 


展 了 解 ， 但 赫 布 是 第 一 个 提出 这 种 机 制 的 人 ， 通 过 这 个 机 制 可 以 对 连接 
进行 编码 。 


在 符号 学 派 中 ， 符 号 和 它们 代表 的 概念 之 间 有 一 一 对 应 的 关系 。 相 
反 ， 符 号 学 派 的 代表 方式 却 古 分 散 式 的 : 每 个 概念 由 许多 神经 元 来 表 
示 ， 而 每 个 神经 元 又 会 和 其 他 神经 元 一 起 代表 许多 不 同 的 概念 。 互 相 激 
发 的 神经 元 会 形成 赫 布 所 称 的 “细胞 集 *。 概 念 和 记忆 由 细胞 集 在 大 脑 中 
表示 出 来 。 每 个 细胞 集 都 可 以 包含 来 自 不 同 大 脑 区 域 的 神经 元 ， 也 可 以 
和 其 他 集合 相互 重合 。“ 腿 ”的 细胞 集中 包含 “ 脚 ” 的 细胞 集 ， 包 含 脚 的 图 
片 的 细胞 集 ， 以 及 脚 的 声音 的 细胞 集 。 如 有 果 你 问 一 个 符号 学 派系 
统 , “纽约 ”这 个 概念 在 哪里 被 表示 出 来 ， 它 可 以 指向 存储 该 记忆 的 准确 
位 置 。 在 联结 学 派 体系 中 ,答案 束 是 “这 个 概念 通过 这 里 一 点 、 那 里 一 
扩 地 被 储存 起 来 ”。 


符号 学 派 和 联结 学 派 的 另外 一 个 区 别 就 在 于 ， 前 者 是 按 次 序 的 ， 而 
后 者 是 平行 的 。 在 逆向 演绎 中 ， 我 们 可 以 一 步 一 步 地 弄 明 白 ， 为 了 从 前 
提出 发 得 到 满意 的 结论 ， 需 要 哪些 新 的 规则 。 而 在 联结 学 派 模型 中 ， 根 
气 赫 布 律 ， 所 有 的 神经 元 都 会 同时 进行 学 习 。 这 也 反映 了 计算 机 和 人 脑 
之 间 的 不 同属 性 。 计 算 机 做 每 件 事 都 会 一 点 点 来 ， 例 如 ， 把 两 个 数 相 
加 ， 或 者 拉 开 关 。 所 以 为 了 完成 所 有 有 意义 的 事情 ， 计 算 机 得 经 过 很 多 
步 又， 但 那些 步骤 可 以 很 快 被 完成 ， 因 为 晶体 管 每 秒 可 以 打开 、 关 闭 数 
十 亿 次 。 相 反 ， 人 脑 可 以 同时 进行 多 项 运算 ， 这 时 数 十 亿 的 神经 元 会 同 
时 起 作用 ， 但 每 项 远 算 都 会 很 慢 ， 因 为 神经 元 最 多 可 每 秒 放 电 1000 次 。 


计算 机 里 晶体 管 的 数量 己 经 赶 上 人 类 大 脑 里 神经 元 的 数量 ， 但 在 连 
接 数 量 上 ， 人 类 的 大 脑 轻 易 获 胜 。 在 一 台 微 处 理 器 中 ， 和 典型 的 晶体 管 仅 
仅 和 其 他 几 个 晶体 管 直接 相连 ， 而 派 上 用 场 的 平面 半导体 技术 对 计算 机 
功能 的 发 挥 又 有 很 大 的 限制 。 相 反 ， 一 个 神经 元 就 有 数 干 个 突 触 。 如 果 
你 走 在 大 街 上 碰 到 熟人 ， 你 认 出 他 只 需要 0.1 秒 。 以 神经 转换 的 速度 ， 
这 些 时 间 勉 强 够 用 来 进行 100 个 处 理 步 又， 但 在 那些 处 理 步 骤 中 ， 你 的 


大 脑 能 够 浏览 整个 记忆 库 ， 找 到 最 佳 搭 配 ， 然 后 使 其 适应 新 的 背景 (不 
同 的 服装 、 不 同 的 灯光 等 ) 。 在 大 脑 中 ， 每 个 处 理 步 又 有 可 能 会 很 复 
杂 ， 而 且 会 涉及 很 多 信息 ， 并 符合 分 散 的 概念 表达 方式 。 


这 并 不 意味 着 我 们 就 不 能 利用 计算 机 来 模拟 人 脑 ， 毕 竟 这 是 联结 学 
派 算法 要 做 的 事 。 因 为 计算 机 是 通用 的 图 灵机 ， 只 要 我 们 给 它 足 够 的 时 
间 和 记忆 力 ， 它 整 能 执行 大 脑 的 计算 ， 以 及 别 的 任何 事情 。 尤 其 计算 机 
可 以 利用 速度 来 弥补 缺乏 连接 的 劣势 ， 干 千 万 万 遍 利 用 同样 的 线 来 模拟 
1000 根 线 。 实 际 上 ， 目 前 计算 机 和 人 脑 相 比 ， 主 要 的 限制 是 能 量 损耗 ; 
人 的 大 脑 消 耗 的 能 量 仅仅 相当 于 一 个 小 轨 泡 ， 而 沃 森 消 耗 的 电 却 能 点 腕 
整 株 办 公 楼 。 


然而 为 了 模拟 大 脑 ， 我 们 需要 的 不 仪 仪 是 区 布 律 ， 还 要 知道 大 脑 是 
如 何 构 造 的 。 每 个 神经 元 就 像 一 标 小 树 ， 有 数目 尺 人 的 根 须 ( 树 突 〉 还 
有 细 长 晓 昨 的 树干 〈 轴 突 〉。 大 脑 束 是 由 数 十 亿 检 这 样 的 树 组 成 的 森 
林 ， 但 这 些 树 也 有 不 同 寻 常 的 地 方 : 每 棵 树 的 枝 了 都 会 和 其 他 数 和 干 棵 树 
的 根部 有 连接 ( 突 触 》， 形 成 大 片 你 没 见 过 的 纠缠 状态 。 有 些 神经 元 有 
很 短 的 轴 突 ， 而 有 些 神经 元 的 轴 突 则 很 长 ， 可 以 从 大 脑 的 一 边 缠 绕 到 为 
一 边 。 你 大 脑 里 轴 突 的 长 上 度 相当 于 地 球 到 月 腕 的 距离 。 


这 片 森林 还 会 元 满 电 流 。 火 星 会 沿 着 树干 内 炼 ， 然 后 会 引发 相 邻 树 
木 更 多 的 火花 。 时 不 时 整个 区 域 的 丛林 会 使 自己 进入 狂热 状态 ， 然 后 又 
会 平静 下 来 。 如 宋 你 动 动 脚趾 ， 会 友 生 一 系列 放电 现象 ， 人 们 称 之 
为 “动作 电位 *”。 这 种 放电 现象 会 沿 看 你 的 消 髓 一 直到 达 腿 部 ， 和 直到 到 达 
你 的 脚趾 肌肉 ， 然 后 告诉 肌肉 要 运动 。 你 的 大 脑 运转 时 的 情景 束 是 这 些 
电 火 花火 光 四 里 的 场面 。 如 果 你 能 坐 在 大 脑 里 面 ， 看 看 你 阅读 这 页 书 时 
大 脑 发 生 了 什么 ， 你 看 到 的 情景 会 让 科 弥 小 说 里 最 繁忙 的 都 市 景象 也 过 
色 几 分 。 这 个 十 分 复杂 的 神经 元 放电 模式 的 背后 ， 就 是 你 的 意识 在 起 作 
用 。 


在 赫 布 时 代 ， 没 有 什么 方法 能 够 训 量 突 触 的 强度 或 者 用 生 在 其 内 部 


的 变化 ， 更 不 用 说 型 明白 突 触 变化 的 分 子 生物 学 相关 人 信息。 如今， 我 们 
知道 ， 当 突 触 后 神经 元 在 突 触 前 神经 元 之 后 会 很 快 放电 时 ， 突 触 会 变 大 
(或 重新 形成 突 触 〉。 和 所 有 的 细胞 一 样 ， 神 经 元 里 外 有 不 同 的 离子 浓 
度 ， 穿 过 神经 元 的 细胞 膜 形成 一 股 电压 。 当 突 触 前 神经 元 放电 时 ， 微 小 
的 赛会 癌 突 触 间 隐 释放 神经 递 质 分 子 。 这 会 使 突 触 后 神经 元 的 膜 中 的 通 
道 打开 ， 让 钾 离 子 和 钠 离 子 进入 ， 最 终 会 改变 通过 膜 的 电压 。 如 宁 有 足 
够 多 的 突 触 前 神经 元 一 起 放电 ， 电 压 会 突然 升 高 ， 一 个 动作 电位 会 顺 着 
突 触 后 神经 元 的 轴 突 而 下 。 这 还 会 使 离子 通道 变 得 更 加 灵敏 ， 并 出 现 新 
的 通道 ， 对 突 触 进行 加 强 。 就 我 们 的 知识 所 能 达到 的 水 平 ， 这 束 是 神经 
元 进行 学 习 的 过 程 。 


下 一 步 就 是 把 这 个 过 程 运用 到 算法 中 。 


感知 磺 的 兴盛 与 聂 王 


第 一 个 正式 的 神经 元 模型 是 由 沃 伦 . 麦 卡 洛克 〈Warren McCulloch) 
和 沃尔特 : 皮 菊 (Walter Pitts) 于 1943 年 提出 的 。 这 个 模型 看 起 来 很 像 组 
成 计算 机 的 逻辑 门 。 当 “或 ? 门 至 少 一 个 输入 开关 打开 时 ,，“ 或 ? 门 开通 ， 
当 所 有 输入 开关 打开 时 ,，“ 且 ” 门 开 通 。 当 其 输入 的 活跃 信息 超过 某 个 界 
限 值 时 ， 一 个 麦 卡 洛 元 一 皮 次 神经 元 会 打开 。 男 外 ， 如 果 界 限 值 只 有 一 
个 ， 神 经 元 就 相当 于 一 道 “ 或 ” 门 ， 如 果 界 限 值 等 于 输入 信息 的 数量 ， 神 
经 元 就 相当 于 一 道 “ 且 ” 门 。 男 外 ， 一 个 麦 卡 洛克 一 皮 次 神经 元 会 阻止 男 
外 一 个 麦 卡 洛克 一 皮 奖 神经 元 打开 ， 这 就 模拟 了 抑制 性 突 触 和 “ 非 ” 门 。 
因此 神经 元 的 一 个 网 络 就 可 以 完成 计算 机 的 所 有 计算 。 在 早 些 年 ， 计 算 
机 常常 被 称 为 “电脑 *"， 这 不 只 是 一 个 类 比 那 么 简单 。 


麦 卡 洛克 一 皮 次 神经 元 做 不 了 的 事情 残 是 学 习 。 为 此 我 们 需要 对 神 
经 元 之 间 的 连接 给 予 不 同 的 权重 ， 这 就 是 所 训 的 “感知 帮 ”*”。 感 知 絮 于 20 


世纪 50 年 代 由 康 妹 尔 大 学 的 心理 学 家 弗兰克 : 罗 森 布 拉 特 (Frank 
Rosenblatt) 发明 。 作 为 定 有 魅力 的 演讲 者 和 活跃 人 物 ， 罗 和 森 布 拉 特 在 
早期 机 器 学 习 领 域 形成 的 过 程 中 ， 比 任何 人 付出 的 都 要 多 。“ 感 知 器 ”这 
个 名 称 源 于 他 的 兴趣 ， 他 喜欢 将 自己 的 模型 应 用 到 诸如 演讲 和 字符 识别 
的 感知 任务 中 。 他 没有 将 感知 器 应 用 于 软件 中 ， 因 为 在 那个 年 代 这 个 过 
程 会 非常 缓慢， 他 构建 了 自己 的 装置 。 权 值 是 由 可 变 电 阻 器 来 实现 的 ， 
这 些 电 阳 右 和 调 光 灯 开 关中 的 那些 电阻 费 一 样 ， 而 且 权 值 学 习 由 电动 机 
来 实现 ， 电 动机 会 打开 电阻 嚣 上 的 开关 。 


在 感知 器 中 ， 一 个 正 权 值 代表 一 个 兴奋 性 连接 ， 一 个 负 权 值 代 表 一 
个 抑制 性 连接 。 如 果 其 输入 量 的 加 权 和 高 于 界限 值 ， 那 么 会 输出 1; 如 
果 加 权 和 小 于 界限 值 ， 那 么 输入 0。 通 过 改变 权 值 和 界限 值 ， 我 们 可 以 
改变 感知 器 计算 的 函数 。 当 然 ， 这 种 做 法 忽略 了 神经 元 发 挥 作用 的 很 多 
细节 ， 但 我 们 想 让 这 个 过 程 尽 可 能 简单 点 。 我 们 的 目标 是 形成 一 种 多 用 
途 的 学 习 算 法 ， 而 不 是 构建 一 个 大 脑 的 现实 模型 。 如 果 被 我 们 忽略 的 一 
些 细节 最 后 证 明 很 重要 ， 可 以 在 后 面 加 上 去 。 尽 管 我 们 把 抽象 的 东西 简 
化 了 ， 却 仍 可 以 看 到 这 个 模型 的 每 个 部 分 都 与 神经 元 的 一 个 部 分 相对 应 
〈 见 图 4-1) 。 
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图 4-1 
输入 量 的 权 值 越 蜗 ， 相 应 的 突 触 也 会 越 强 。 细 胞 体 把 所 有 加 权 输 入 


量 加 起 来 ， 轴 突 使 结果 变 成 一 个 阶 路 函数。 图 中 代表 轴 突 的 框 表明 了 阶 


跃 函数 的 图 像 : 0 代表 输入 量 的 低 值 ， 当 输入 量 到 达 界 限 值 时 ， 会 突然 
变 成 1。 


假设 感知 器 有 两 个 持续 输入 量 x 和 y 换 句 话 说 ，x 和 y 可 以 是 任何 数 
值 ， 不 仅仅 是 0 和 1) ， 那 么 每 个 例子 都 可 以 由 平面 上 的 一 个 点 来 表示 ， 
而 正面 例子 〈 例 如 ， 感 知 需 中 输出 量 为 1) 和 负面 例子 〈 输 出 量 为 0) 之 
间 的 界线 惑 是 一 条 直线 〈 见 图 4-2) 。 


图 4-2 


这 是 因为 这 条 界线 是 由 一 系列 点 组 成 的 ， 在 这 些 点 上 ， 加 权 和 刚好 
等 于 界限 值 ， 而 一 个 加 权 和 婚 是 一 个 线性 函数 。 例 如 ， 如 果 x 的 系数 是 
2，y 的 系数 是 3， 那 么 界限 值 是 6， 界 限 就 由 方程 式 2x+3y=6 来 确 
定 。x=0，y=2 的 氮 就 在 界线 上 ， 为 了 停留 在 这 条 线 上 ， 我 们 要 水 平 同 右 
平移 3 个 单位 ， 同 时 垂直 辐 下 平移 2 个 单位 ， 这 样 x 增 加 的 量 惑 是 y 减 少 的 
量 ， 经 过 的 点 就 形成 一 条 直线 。 


掌握 感知 器 的 权 值 意 味 着 要 改变 直线 的 方向 ， 知 道 所 有 的 正面 例子 


都 在 这 边 ， 所 有 的 负面 例子 都 在 另 一 边 。 在 一 维 概念 中 ， 这 个 界线 是 一 
个 点 ; 在 二 维 概念 中 ， 它 是 一 条 直线 ;在 三 维 概念 中 ， 它 是 一 个 面 ; 在 
超过 三 维 的 概念 中 ， 它 是 一 个 超 平面 。 在 超 平 面 中 很 难 把 东西 形象 化 ， 
但 数学 就 是 这 样 发 挥 作用 的 。 在 mn 维 概念 中 ， 我 们 有 mn 个 输入 量 ， 而 感知 
器 有 nm 个 权 值 。 为 了 确认 感知 器 是 否 放 电 ， 我 们 把 每 个 权 值 乘 以 相应 的 
输入 量 ， 然 后 将 得 数 相 加 ， 和 界限 值 进行 对 比 。 


如 果 所 有 的 输入 量 都 有 一 个 权 值 1， 而 且 界 限 值 是 输入 量 数值 的 一 
半 ， 当 感知 器 超过 一 半 的 输入 量 放电 时 ， 那 么 感知 器 放电 。 换 句 话说 ， 
感知 器 就 像 一 个 微型 社会 ， 少 数 服从 多 数 〈 可 能 也 没有 那么 小 ， 因 为 它 
有 数 干 个 成 员 ) 。 尺 管 如 此 ， 整 体 来 说 它 并 不 那么 民主 ， 因 为 一 般 不 是 
人 人 都 平等 地 享有 选择 权 。 神 经 网 络 看 起 来 更 像 社交 网 络 ， 在 这 里 ， 几 
个 杀 密 朋友 比 脸 书 上 的 数 千 个 好 友 更 加 重要 。 最 信任 的 朋友 对 你 的 影响 
也 最 大 。 如 果 有 个 朋友 推荐 了 一 部 电影 ， 你 去 看 了 ， 沉 得 喜欢 ， 下 次 可 
能 还 会 再 听 他 的 建议 。 劝 一 方面 ， 如 宋 他 滔滔 不 绝地 讲 你 不 喜欢 的 电 
影 ， 你 会 开始 忽略 他 的 建议 (甚至 你 们 的 友情 都 可 能 变 淡 ) 。 


这 就 是 罗 森 布 拉 特 的 感知 器 算法 掌握 权 值 的 方法 。 


想 想 祖母 细胞 ， 这 是 认 知 神经 学 科学 家 最 热衷 的 思维 实验 。 祖 母 细 
胞 是 你 大 脑 中 的 一 个 神经 元 ， 无 论 何 时 你 看 到 自己 的 祖母 ， 它 都 会 放 
电 ， 而 且 只 有 这 样 的 情况 才 会 放电 。 祖 母 细 胞 是 否 真实 存在 有 竺 探寻 ， 
但 我 们 可 以 设计 一 个 ， 并 将 其 应 用 于 机 器 学 习 。 下 面 ， 我 们 来 分 析 一 下 
感知 器 学 习 识 别 你 的 祖母 的 过 程 。 进 入 细胞 的 要 么 是 图 片 中 的 原始 像 
素 ， 要 么 就 是 图 片 的 各 种 固有 特征 ， 就 像 标 色 的 眼睛 ， 如 果 图 片上 有 一 
双 标 色 的 眼睛 就 会 取 值 1， 否 则 是 0。 一 开始 ， 从 特征 到 神经 元 的 所 有 连 
接 有 小 的 随机 值 ， 残 像 刚 出 生 时 你 大 脑 中 的 突 触 一 样 。 那 么 我 们 向 感知 
器 展示 了 一 组 图 片 ， 有 些 是 你 祖母 的 ， 有 些 不 是 。 如 果 感 知 器 在 看 到 一 
张 你 祖母 的 照片 时 会 放电 ， 或 者 在 看 到 别 的 图 片 时 不 会 放电 ， 那 么 就 不 
需要 进行 学 习 活动 (如 果 东 西 没 坏 ， 就 别 修理 它 ) 。 但 如 果 感 知 右 在 看 


到 你 的 祖母 时 没有 放电 ， 这 意味 着 它 的 输入 量 的 加 权 和 应 该 取 更 高 的 
值 ， 这 样 我 们 就 增加 进行 中 的 输入 量 的 权 值 “例如 ， 如 果 你 的 祖母 有 一 
双 标 色 的 眼睛 ， 这 个 特征 的 权 值 会 增长 》。 相 反 ， 如 果 感 知 器 在 不 该 放 
电 的 时 候 放 电 ， 我 们 束 减 少 活跃 的 输入 量 的 权 值 。 误 差 过 使 学 习 活 动 下 
常 进行 。 经 过 一 段 时 间 ， 表 明 你 祖母 的 特征 会 取得 更 高 的 权 值 ， 相 反 则 
得 到 低 权 值 。 一 旦 感知 器 看 到 你 祖母 时 就 会 放电 ， 而 且 也 只 有 这 时 ， 学 
习 才 算 完成 。 


感知 器 会 产生 许多 兴奋 。 它 虽然 简单 ， 但 仅 凭 借 例 子 训练 ， 它 就 能 
识别 书面 文字 和 语音 。 罗 和 森 布 拉 特 在 康 奈 尔 大 学 的 同事 证 实 ， 如 果 正 面 
例子 和 负面 例子 能 够 通过 超 平面 来 分 离 ， 那 么 感知 器 会 找到 超 平 面 。 对 
于 罗 森 布 拉 特 和 其 他 人 来 说 ， 真 正 理解 大 脑 如 何 进 行 学 习 似乎 在 能 力 范 
图 之 内 ， 有 了 这 种 理解 力 ， 就 可 以 得 到 强大 的 多 用 途 学 习 算 法 了 。 


但 是 感知 器 却 倍 壁 了 。 知 识 工程 师 被 罗 和 森 布 拉 特 的 观点 激怒 ， 辫 共 
其 不 断 增 长 的 被 关注 上 度 ， 而 神经 网 络 ， 特 别 是 感知 右 获 得 的 资金 也 变 得 
越 来 越 多 。 马 文 : 明 斯 基 就 是 其 中 一 个 ， 他 是 罗 和 森 布 拉 特 之 前 在 布 明 士 
科学 高 中 的 同学 ， 那 时 他 还 是 厂 省 理工 学 院 人 工 智能 研究 小 组 的 领导 
(具有 讽刺 意味 的 是 ， 他 的 博士 论文 和 神经 网 络 相 关 ， 但 对 于 神经 网 
络 ， 他 越 来 越 不 抱 约 想 ) 。1969 年 ， 明 斯 基 和 他 的 同事 西 摩尔 : 派 普 特 
一 起 出 版 了 《感知 器 》 (Perceptroms) 一 书 ， 该 书 详细 介绍 了 同名 算法 
的 缺点 ， 还 一 一 列举 了 该 算法 无 法 学 习 的 内 容 。 最 简单 的 一 个 (所 以 也 
是 最 受 批 评 的 一 个 ) 就 是 排斥 一 “或 ”功能 (exclusive-OR function， 
XOR) 。 如 果 它 其 中 的 一 个 输入 量 是 对 的 ， 那 么 这 就 是 对 的 ， 但 如 果 两 
个 都 是 对 的 ， 则 是 错 的 。 例 如 ， 耐 元 的 两 大 忠实 消费 人 群 被 认为 是 年 轻 
男性 和 中 年 妇女 。 换 句 话 说 ， 如 果 你 是 年 轻 的 XOR 女 性 ， 那 么 有 可 能 购 
买 耐克 的 鞋子 。 年 轻 插 好 的 ， 做 女人 也 挺 好 的 ， 但 两 个 加 起 来 就 不 一 定 
好 了 。 如 果 你 既 不 年 轻 ， 也 不 是 女性 ， 那 么 你 也 不 是 耐克 做 广告 的 对 
象 。XOR 的 问题 就 在 于 ， 没 有 能 够 区 分 正面 例子 和 负面 例子 的 直线 。 图 
4-3 展 示 了 两 种 不 可 行 的 备 选 方法 : 


既然 感知 器 只 能 学 习 线 性 界线 ， 那 么 它 束 无 法 对 XOR 进 行 学 习 。 而 
如 果 感 知 右 无 法 做 到 这 一 点 ， 就 无 法 很 好 地 模拟 大 脑 学 习 的 方法 ， 也 不 
征 终极 算法 可 行 的 备 选项 。 


然而 ， 一 人 台 感 知 器 只 能 模拟 单个 神经 元 的 学 习 过 程 ， 尽 管 明 斯 基 和 
派 普 特 承 认 ， 几 层 相 互 连 接 的 神经 元 能 做 的 应 该 更 多 ， 但 他 们 找 不 到 研 
客 这 些 神 经 元 的 方法 ， 其 他 人 也 找 不 到 。 问 题 就 在 于 ， 没 有 明确 的 方法 
来 改变 “ 隐 层 ”中 神经 元 的 权 值 ， 以 减少 输出 层 中 神经 元 造成 的 误差。 每 
个 隐藏 的 神经 元 会 通过 多 种 路 线 来 影响 输出 量 ， 而 且 造 成 每 个 误差 的 原 
因 也 可 能 达到 上 千 种 。 你 该 责怪 谁 ? 或者， 相反， 谁 该 因为 正确 的 输入 


量 而 受到 赞扬 ? 这 个 问题 在 我 们 努力 对 一 个 复杂 模型 进行 学 习 时 随时 会 
出 现 ， 而 这 个 问题 也 是 机 器 学 习 领域 中 的 中 心 问题 。 从 数学 角度 看 ， 
《感知 器 》 无 懈 可 击 ， 思 路 清晰 、 效 果 明 显 。 机 絮 学 习 当 时 主要 和 神经 
网 络 相 关联 ， 而 且 多 数 研究 者 (更 不 用 说 创建 人 ) 得 出 结论 ， 构 建 智能 
体系 的 唯一 方法 就 是 对 其 进行 明确 设 定 。 在 未 来 15 年 ， 知 识 工程 师 会 站 
在 舞台 中 央 ， 而 机 器 学 习 则 会 变 成 历史 的 残 灰 。 


物理 学 家 用 玻璃 制作 大 脑 


如 采 机 器 学 习 的 历史 是 一 部 好 沫 均 电 影 ， 电 影 中 的 反面 人 物 就 是 马 
文明 斯 基 。 他 是 给 白雪 公主 毒 苹果 的 邪恶 旦 后 ， 让 白雪 公主 处 于 置 迷 
状态 《在 1988 年 的 一 篇 文章 中 ， 西 摩尔 ' 派 普 特 甚 全 半 开 玩笑 地 将 上 自己 
比 作 故事 里 的 狂人， 故事 里 旦 后 派 他 去 杀 死 森林 中 的 白雪 公主 ) 。 那 么 
日 蕊 王子 就 是 名 叫 约 翰 : 稚 普 菲 尔 德 的 加 州 理工 学 院 的 物理 学 家 。1982 
年 ， 霍 普 菲 尔 德 发 现 了 大 脑 和 目 旋 玻璃 (spinglass) 惊人 的 相似 之 处 ， 
目 旋 玻璃 是 深 受 统计 物理 学 家 喜爱 的 特殊 材料 。 这 引起 联结 学 派 的 复 
兴 ， 在 第 一 个 解决 赞誉 分 配 问题 的 算法 发 明 出 来 的 几 年 ， 联 络 学 派 复兴 
达到 顶峰 ， 并 进入 一 个 新 时 代 ， 机 器 学 习 代 痊 知识 工程 学 成 为 人 工 智 能 
领域 的 主导 范式 。 


旋转 玻璃 其 实 并 不 是 玻璃 ， 昌 然 有 一 些 玻璃 的 属性 ， 其 实 是 磁性 材 
料 。 每 个 电子 痢 是 一 块 微小 的 磁铁 ， 由 于 本 映 的 自 旋 运动 ， 可 以 
指 “ 上 ?或 指 “ 下 ”。 比 如 在 铁 这样 的 材料 中 ， 电 子 自 旋 就 趋同 于 往 上 : 如 
果 一 个 目 旋 问 下 的 电子 被 多 个 目 旋 同上 的 电子 包围 ， 这 个 电子 可 能 会 翻 
转 问 上。 如 宋 一块 铁 中 的 大 部 分 目 旋 都 同上 ， 那 么 这 块 铁 吕 会 变 成 一 块 
磁铁 。 在 普通 磁铁 中 ， 每 对 相 邻 电子 自 旋 的 交互 力 都 一 样 ， 但 在 目 旋 玻 
璃 中 ， 这 种 力 束 可 能 不 一 样 。 这 种 力 甚至 会 是 相反 的 ， 使 得 附近 的 电子 


目 旋 指 网 相反 的 方向 。 当 普通 磁铁 所 有 的 目 旋 都 排 成 一 行 时 ， 能 量 是 
低 的， 但 在 目 旋 玻璃 中 却 没 那么 简单 。 的 确 ， 找 到 目 旋 玻璃 的 最 低能 
状态 就 是 一 个 NP 一 完全 问题 ， 意 味 厦 儿 乎 所 有 其 他 最 优化 难题 都 可 以 
简化 为 NP 一 完全 问题 。 因 为 这 个 ， 目 旋 玻 璃 没有 必要 适应 其 整体 能 
最 低 的 状态 。 这 很 像 雨 水 可 能 会 治 着 山坡 流入 湖 中 ， 而 不 是 进入 大 海 ， 
目 旋 玻璃 可 能 会 陷入 局 部 最 小 值 的 困境 ， 而 不 是 在 全 局 最 小 值 中 得 到 友 
展 。 处 于 最 小 值 状态 中 的 能 量 会 比 在 其 他 状态 下 低 ， 通 过 翻转 一 圈 ， 最 
低能 量 状态 束 可 以 转变 为 其 他 状态 。 


地 池 


霍 普 菲 尔 德 注意 到 自 旋 玻璃 和 神经 网 络 之 间 有 趣 的 相似 点 : 一 个 电 
子 的 上 自 旋 对 其 相 邻 电子 的 活动 所 做 的 反应 和 一 个 神经 元 的 反应 十 分 相 
似 。 在 电子 的 情况 中 ， 如 果 相 邻 电 子 的 加 权 和 超过 界限 值 ， 电 子 束 会 问 
上 翻 ， 反 之 则 辐 下 翻 。 受 到 这 一 点 的 局 发 ， 他 确定 了 一 种 神经 网 络 ， 和 
目 旋 玻 璃 一 样 随 着 时 间 的 推移 而 演变 ， 他 还 提出 网 络 的 最 低 值 状态 就 是 
它 的 记忆 。 每 个 这 样 的 状态 都 具备 原始 状态 的 “吸引 盆 ”(basin of 
attraction)〉， 原 始 状 态 就 收敛 于 该 盆 中 ， 这 样 这 个 网 络 束 可 以 进行 模式 
识别 了 。 例 如 ， 如 果 其 中 的 一 个 记忆 是 由 数字 9 形成 的 黑 日 像素 模式 ， 
而 网 络 看 到 一 个 扭曲 了 的 9， 它 会 收敛 成 “理想 ”的 9， 然 后 据 此 重新 识别 
它 。 突 然 间 ， 大 量 的 物理 理论 能 够 应 用 于 机 器 学 习 中 ， 而 随 之 也 涌 入 大 
批 的 统计 物理 学 家 ， 帮 助 目 旋 玻璃 打破 之 前 就 陷入 的 局 部 最 小 值 困境 。 


虽然 如 此 ， 但 目 旋 玻璃 仍然 是 大 脑 的 一 个 不 现实 的 模型 。 对 于 一 个 
电子 来 说 ， 目 旋 相 互 作用 是 对 称 的 ， 而 大 脑 中 神经 元 之 间 的 连接 却 不 是 
对 称 的 。 霍 普 菲尔德 的 模型 忽略 的 另外 一 个 大 问题 就 是 ， 真 正 的 神经 元 
是 和 统计 相关 的 : 它们 不 会 根据 其 输入 量 来 确定 地 进行 打开 或 关闭。 随 
者 输入 量 加 权 和 的 增加 ， 神 经 元 更 有 可 能 放电 ， 但 不 确定 它 是 否 真 的 会 
放电 。1985 年 ， 大 卫 : 艾 克利 、 杰 夫 : 平 顿 、 特 里 ' 索 诡 斯 基 把 堆 普 菲尔德 
网 络 里 的 确定 性 神经 元 用 可 能 性 神经 元 代替 。 现 在 一 个 神经 网 络 的 状态 
就 有 了 概率 分 布 ， 高 能 量 状态 的 概率 要 比 低能 量 状态 的 概率 低 得 多 。 实 
际 上 ， 找 到 处 于 特定 状态 中 的 网 络 ， 这 样 的 概率 由 著名 的 热力 学 中 的 玻 


尔 效 曼 分 布 得 出 ， 因 此 他 们 称 自己 的 网 络 为 玻 尔 效 曼 机 器 。 


一 台 玻 尔 兹 曼 机 器 拥有 混合 的 感官 和 隐藏 神经 元 〈 分 别 类 似 于 视 网 
膜 和 大 脑 ) 。 它 通过 清醒 和 睡眠 两 种 交替 状态 进行 学 习 ， 就 像 人 类 一 
样 。 清 醒 时 ， 感 官 神经 元 根据 数据 指令 放电 ， 隐 藏 神 经 元 根据 网 络 的 动 
态 和 感官 输入 来 逐步 发 展 。 例 如 ， 如 果 网 络 收 到 9 的 图 片 ， 与 图 片 中 黑 
色 像 素 对 应 的 神经 元 会 留 下 ， 其 他 的 则 离开 ， 而 隐藏 神经 元 则 在 给 定 那 
些 像素 值 的 情况 下 ， 根 据 玻 尔 效 曼 分 布 随机 放电 。 睡 眠 状态 时 ， 机 器 会 
做 梦 ， 让 感官 和 隐藏 神经 元 都 能 自由 漂移 。 新 一 天 的 黎明 到 来 之 前 ， 机 
器 会 统计 睡梦 中 的 状态 ， 以 及 昨天 活动 中 的 状态 ， 直 到 进行 比较 ， 接 着 
改变 连接 权 值 ， 让 权 值 符合 搭配 。 如 果 两 个 神经 元 白天 时 易于 在 一 起 放 
电 ， 但 睡眠 时 放电 次 数 却 变 少 了 ， 那 么 它们 连接 的 权 值 会 升 高 ， 如 果 情 
况 相 反 ， 则 权 值 会 降低 。 通 过 日 复 一 日 重复 这 样 的 工作 ， 感 官 神 经 之 间 
经 过 预测 的 相关 性 会 进一步 发 展 ， 知 道 它 们 和 真正 的 神经 元 搭配 起 来 。 
这 时 ， 玻 尔 兹 曼 机 器 就 掌握 了 一 个 很 好 的 数据 模型 ， 并 有 效 解决 赞誉 分 
布 问题 。 


杰 夫 :六 顿 在 接 下 来 的 几 十 年 继续 在 玻 尔 兹 曼 机 器 中 尝试 了 许多 变 
量 。 注 顿 由 心理 学 家 变 成 计算 机 科学 家 ， 他 是 逻辑 运算 《被 应 用 于 所 有 
计算 机 中 ) 的 发 明 者 一 一 乔治 :布尔 的 曾孙， 是 世界 领先 的 联结 主义 
者 。 为 了 了 解 大 脑 如 何 运 转 ， 他 比 任何 人 付出 的 时 间 、 精 力 都 要 多 。 他 
讲 到 有 一 天 他 怀 着 极度 兴奋 的 心情 下 班 回 家 ， 怀 呼 : “我 做 到 了 ! 我 知 
道 大 脑 怎么 运转 了 ! ”他 的 女儿 回答 道 :“ 啊 ! 爸爸， 你 怎么 又 来 
了 ! ?学 顿 最 近 的 热情 在 于 研究 深度 学 习 ， 本 章 的 后 面部 分 会 谈 到 。 他 
还 参与 了 反 回 传播 的 研究 ， 这 是 一 个 比 玻 尔 效 受 机 器 能 更 好 地 解决 赞誉 
分 布 问 题 的 算法 ， 我 们 后 面 会 谈 到 。 玻 尔 兹 曼 机 器 原则 上 可 以 解决 赞誉 
分 布 问题 ， 但 在 实践 中 ， 学 习 这 个 行为 非常 缓慢 且 痛 苗 ， 对 大 多 数 应 用 
来 说 ， 玻 尔 效 曼 机 器 有 点 不 切实 际 。 下 一 个 突破 会 涉及 解决 麦 卡 洛克 和 
皮 次 时 期 的 另外 一 个 过 上 度 简 化 (oversimplication〉 问 题 。 


世界 上 最 曾 要 的 曲线 


就 其 相 邻 神经 元 而 言 ， 一 个 神经 元 只 能 处 于 两 种 状态 : 放电 或 不 放 
电 。 但 是 这 忽略 了 一 个 很 重要 的 巧妙 之 处 。 动 作 电位 寿命 短 ， 电 压 会 在 
一 秒 之 内 骤然 升 高 ， 然 后 突然 回 到 静 妨 状态 。 而 单个 峰值 对 接收 神经 几 
乎 不 会 有 影响 ， 为 了 唤醒 接收 神经 ， 需 要 一 连 串 连续 不 断 的 峰值 。 典 型 
的 神经 元 会 偶尔 在 没有 刺激 的 情况 下 电压 达到 峰值 ， 当 刺激 建立 起 来 
时 ， 电 压 达 到 峰值 的 频率 会 越 来 越 蜗 ， 然 后 保持 在 它 所 能 达到 峰值 的 最 
快速 度 ， 快 于 这 个 速度 时 ， 不 断 增强 的 刺激 就 没有 效果 了 。 神 经 元 与 其 
说 是 一 道 逻 辑 门 ， 不 如 说 是 一 全 电压 频 率 转换 器 。 随 电压 而 变化 的 频率 
曲线 如 图 4-4 所 示 。 


频 5 加 


该 曲线 看 起 来 像 被 拉 长 的 字母 98， 它 有 很 多 叫 法 ， 比 如 逻辑 函数 、S 


形 函 数 和 S 形 曲线 。 仔 细 研 究 它 吧 ， 因 为 这 是 世界 上 最 重要 的 曲线 。 首 
先 输出 量 随 着 输入 量 绥 慢 增 长 ， 如 此 缓慢 ， 似 乎 保持 不 变 。 接 着 它 开始 
变化 得 很 快 ， 然 后 变 得 更 快 ， 之 后 越 来 越 慢 ， 直 到 几乎 保持 不 变 为 止 。 
晶体 管 的 转换 曲线 ， 将 其 输入 电压 和 输出 电压 联系 在 一 起 ， 也 是 一 条 S 
形 曲 线 。 所 以 计算 机 和 大 脑 都 充满 了 S 形 曲线 。 这 还 没 结 束 ，S 形 曲线 是 
所 有 种 类 相 变 的 形状 : 电子 应 用 领域 目 旋 反 转 的 概率 、 铁 的 磁化 、 将 少 
量 记忆 写 到 人 硬盘 上 、 细 胞 中 离子 通道 的 打开 、 冰 块 融化 、 水 茸 发 、 早 期 
宇宙 的 膨胀 扩张 、 进 化 中 的 间断 平衡 、 科 学 中 的 范式 转移 、 新 技术 的 传 
播 、 离 开 多 民族 社区 的 白人 大 迁徙 、 谣 言 、 流 行 病 、 革 命 、 帝 国 的 没落 
等 。“ 引 爆 点 ”也 很 适合 (可 能 不 那么 有 吸引 力 〉“S 形 曲线 ”这 个 名 字 。 
在 两 个 相 邻 板块 的 相对 位 置 中 ， 地 震 就 是 一 个 相 变 。 夜 里 的 碰撞 声 ， 也 
只 是 你 阳 壁 房间 里 微观 板块 移动 的 声 首 ， 所 以 列 害怕 。 约 蕊 夫 : 能 彼 特 
说 过 ， 经 济 是 在 裂缝 和 飞跃 中 得 以 友 展 的 : S 形 曲线 就 是 创造 性 破坏 的 
形状 。 经 济 收益 和 损失 对 你 的 注 福 度 的 影响 遵循 S 形 曲线 原则 ， 所 以 不 
要 在 大 事 上 感到 闫 恼 。 随 机 的 过 和 辑 公式 可 满足 的 概率 “典型 的 NP 完 全 
问题 ) 随 着 公式 变 长 ， 会 经 历 从 接近 1 到 接近 0 的 相 变 。 统 计 物 理学 家 人 花 
了 一 幸子 时 间 来 研究 相 变 。 


在 海明威 的 《太阳 照 第 逢 起》 中 ， 当 麦 砚 :坎贝尔 被 间 到 他 是 如 何 
走 癌 破产 时 ， 他 管道 :“ 有 两 种 方式 ， 先 是 慢 慢 地 ， 然 后 突然 破产 。” 雷 
曼 兄弟 的 情况 也 十 分 相似 。 这 就 是 S 形 曲线 的 精华 。 未 来 学 家 保罗 : 萨 夫 
预言 的 规则 就 是 : 寻找 S 形 曲线 。 当 你 没 法 调 好 淋浴 的 温度 时 开始 水 
很 冷 ， 然 后 很 快 又 变 得 很 热 ) ， 痢 是 S 形 曲线 的 错 。 你 做 爆 米 伦 时 ， 看 
看 S 形 曲线 的 进度 : 一 开始 什么 也 没 肥 生 ， 几 粒 玉 米 爆 开 ， 又 有 一 把 爆 
开 ， 很 多 玉米 突然 像 烟 花 一 样 炮 开 ， 更 多 的 玉米 爆 开 ， 最 后 你 束 可 以 吃 
爆 米 花 了 。 你 肌肉 的 每 个 动作 都 遵循 S 形 曲线 :先是 绥 慢 移动 ， 然 后 快 
速 移动 ， 最 后 义 绥 慢 移动 。 当 迪士尼 的 动画 师 指出 这 一 点 时 ， 动 画 片 变 
得 更 自然 了 ， 然 后 人 们 纷纷 模仿 。 你 的 眼睛 沿 着 S 形 曲线 移动 ， 注 视 一 
样 东 西 然后 换 男 一 样 ， 你 的 意识 也 跟 你 的 眼睛 一 起 转移 。 情 绪 波 动 也 属 
于 相 变 。 出 生 、 长 大 、 险 入 爱河 、 结 婚 、 怀 孕 、 工 作 、 失 业 、 搬 到 新 的 


城市 、 升 职 、 退 休 、 死 亡 ， 这 些 都 属于 相 变 。 宇 宙 就 是 相 变 的 巨大 集合 
体 ， 从 宇宙 到 微观 世界 ， 从 世俗 到 人 生 的 改变 。 


S 形 曲线 作为 一 个 独立 的 模型 ， 不 仅 很 重要 ， 它 还 是 数学 的 万 事 
通 。 如 果 放 大 它 的 中 段 部 位 ， 你 会 发 现 它 近似 一 条 直线 。 很 多 我 们 认为 
古 线 性 的 现象 ， 其 实 都 是 $ 形 曲线 ， 因 为 没有 什么 能 够 坚 无 限制 地 增长 
下 去 。 因 为 相对 性 和 反 牛 顿 定律 ， 加 速度 并 不 会 随 着 力 的 施加 而 呈 线 性 
增长 ， 但 会 遵循 S 形 曲线 ， 以 0 为 中 心 。 电 路 中 或 者 灯泡 中 电阻 的 电流 也 
不 会 随 着 电压 的 增长 而 线性 增长 〈 直 到 灯泡 中 的 灯丝 熔化 ， 这 本 身 又 是 
另外 一 个 相 变 ) 。 如 果 你 把 S 形 曲线 缩小 ， 它 会 近似 一 个 阶 路 函数 ， 输 
出 值 会 突然 从 0 界限 值 变 到 1 界限 值 。 那 么 根据 输入 电压 ， 同 样 的 曲线 也 
会 表示 这 些 装 置 中 电阻 的 工作 原理 ， 包 括 数字 计算 机 和 类 似 的 装置 ， 如 
扩 首 器 和 广播 协调 器 。S 形 曲线 的 开始 部 分 是 有 效 指数 ， 在 饱和 点 附近 
它 则 接近 指数 式 袁 减 。 当 有 人 讨论 指数 式 增长 时 ， 问 问 你 自己 : 它 什么 
时 候 会 变 成 一 条 S 形 曲线 ?人 口 爆炸 什么 时 候 才 会 慢 慢 消失 ， 摩 尔 定律 
的 重要 性 什么 时 候 前 减 ， 或 者 说 技术 奇异 点 什么 时 候 才 不 会 发 生 ? 辨别 
一 条 S 形 曲线 ， 你 就 会 得 到 一 条 钟 形 曲线 : 缓慢 、 快 速 、 绥 慢 变 低 、 
高 、 低 。 在 S 形 曲线 加 入 一 连 串 向 上 和 向 下 交错 的 曲线 ， 你 会 得 到 接近 
正弦 波 的 曲线 。 实 际 上 ， 每 个 函数 都 可 以 近似 看 作 S 形 曲线 的 总 和 : 图 
数 上 升 时 ， 你 加 一 条 S 形 曲线 ;函数 下 降 时 ， 你 减 挥 一 条 S 形 曲线 。 孩 子 
的 学 习 也 不 是 一 直 都 处 于 进步 状态 ， 这 个 过 程 是 若干 个 S 形 曲线 的 累 
让。 技术 变革 也 是 如 此 。 和 余 眼 看 纽约 的 天 空 ， 你 会 看 到 一 组 S 形 曲线 在 
地 平 线 上 逐渐 展开 ， 每 条 曲线 都 和 摩天 大 楼 的 角 一 样 尖 。 


对 我 们 来 说 最 重要 的 是 ，S 形 曲线 会 找到 解决 赞誉 分 布 问题 的 新 方 
法 。 如 果 宇 宙 是 相 变 的 大 集合 体 ， 那 让 我 们 用 一 条 S 形 曲线 来 模仿 这 个 
集合 体 。 这 就 是 大 脑 要 做 的 事 : 将 里 面 的 相 变 系统 调整 到 外 面 。 那 么 让 
我 们 用 S 形 曲线 来 代 蔡 感知 器 的 阶 跃 函 数 ， 然 后 看 看 会 发 生 什 么 。 


攀登 超 空间 里 的 高 峰 


在 感知 器 算法 中 ， 误 差 信号 要 么 是 全 有 ， 要 么 是 全 无 : 你 不 是 收 到 
对 的 信号 ， 就 是 收 到 错 的 信号 。 继 续 下 去 不 会 有 很 大 的 意义 ， 尤 其 是 当 
你 有 众多 神经 元 网 络 时 。 你 可 能 会 知道 ， 输 出 神经 元 出 错 了 (“哎呀 ， 
那 不 是 你 的 祖母 ?》， 但 如 果 是 大 脑 深 处 的 东 个 神经 元 会 怎么 样 呢 ? 这 
样 的 神经 元 都 会 出 错 ， 那 意味 着 什么 呢 ? 如 条 神经 元 的 输出 信息 是 持续 
的 ， 而 不 是 二 进 制 的 ， 画 面 就 会 改变 。 首 先 ， 我 们 现在 知道 输出 神经 元 
犯 的 错误 有 多 严重 : 它 和 理想 输出 信息 之 间 的 区 别 。 如 果 神 经 元 应 该 不 
停 地 放电 〈“ 啊 ， 您 好 ， 祖 母 ?》， 但 它 只 放 了 一 点 电 ， 那 就 比 什么 电 也 
不 放 要 好 。 更 重要 的 是 ， 我 们 现在 可 以 将 该 误 兰 传播 到 隐藏 神经 中 : 如 
果 输 出 神经 元 应 该 放 更 多 的 电 ， 而 A 神经 元 与 其 相连 ， 那 么 A 放 的 电 越 
多 ， 我 们 就 越 应 该 加 强 它 们 的 连接 ; 但 是 如 果 A 神 经 元 受到 神经 元 B 的 
抑制 ， 那 么 B 神 经 元 就 应 该 少 放 电 ， 以 此 类 推 。 根据 与 其 连接 的 所 有 神 
经 元 的 反馈 看 ， 每 个 神经 元 会 决定 该 多 放 或 者 少 放 多 少 电 。 根 据 这 一 扣 
以 及 输入 神经 的 活动 ， 它 会 加 强 或 者 减弱 它 与 它们 的 联系 。 我 得 放 更 多 
的 电 ， 但 是 B 神 经 元 在 阻止 我 ? 把 它 的 权 值 降 低 。C 神 经 元 不 断 放 电 ， 
但 它 和 我 的 连接 很 弱 ? 那 束 加 强 连 接 。 我 的 “消费 者 ”神经 元 位 于 网 络 的 
下 游 ， 会 告诉 我 下 一 轮 我 的 表现 如 何 。 


无 论 什 么 时 候 学 习 算 法 的 “视网膜 看 到 一 张 新 的 图 片 ， 这 个 信号 束 
会 在 网 络 中 传播 ， 知 道 它 产生 输出 信息 。 将 这 条 输出 信息 和 理想 的 输出 
信息 相 比 ， 会 发 出 错误 信号 ， 这 个 信和 号 会 罕 过 神经 元 层 ， 然 后 反 辐 传播 
回去 ， 直 到 它 到 达 视 网 膜 。 根 据 返 回来 的 信号 以 及 在 前 进 过 程 中 它 接收 
到 的 输入 信息 ， 每 个 神经 元 会 调整 各 目的 权 值 。 随 着 网 络 看 到 越 来 越 多 
你 祖母 和 其 他 人 的 照片 ， 权 值 会 逐渐 收敛 到 能 够 让 它 区 分 两 者 的 值 中 。 
反 回 传播 ， 正 如 这 个 算法 为 人 们 所 知 的 一 样 ， 比 感知 器 算法 要 强大 很 
多 。 单 个 神经 元 只 能 够 对 直线 进行 学 习 。 给 定 足 够 的 隐藏 神经 ， 一 合 多 
层 感 知 器 ， 正 如 它 的 名 字 一 样 ， 可 以 代表 任意 的 复杂 边界 。 这 使 得 反问 


传播 成 为 联结 学 派 的 主 算法 。 


反问 传播 是 目 然 及 技术 领域 中 非常 剃 见 的 战略 实例 : 如 果 你 着 急 息 
到 山 项 ， 那 你 就 得 候 能 找到 的 最 陡 的 坡 。 这 在 技术 上 的 术语 为 “梯度 上 
升 ” (如 果 你 想 仆 到 山顶 ) 或 者 标 度 下 降 〈 如 果 你 想 走 到 山谷 。 细 茵 
就 是 通过 游 向 食物 例如 葡萄 糖分 子 浓度 高 的 地 方 来 够 食 的 ， 过 到 有 
毒物 质 ， 它 们 则 会 游 同 有 毒物 质 浓度 低 的 地 方 。 所 有 事物 ， 从 机 车 到 天 
线 阵 ， 都 可 以 通过 梯度 上 升 来 优化 。 反 向 传播 就 是 在 多 层 感知 器 中 有 效 
做 到 这 一 点 的 方法 : 不 断 对 权 值 进行 微调 ， 以 降低 误 莹 ， 然 后 当 所 有 调 
整 失败 时 ， 停 止 调整 。 有 了 上 反 回 传播， 你 就 不 必 从 头 开始 并 明日 怎样 对 
每 个 神经 元 的 权 值 进行 微调 ， 这 样 做 起 来 会 很 慢 。 你 可 以 一 层 一 层 来 
做 ， 根 据 调整 与 其 相连 神经 元 的 方法 ， 来 调整 每 个 神经 元 。 如 果 在 突 友 
事件 中 ， 除 了 一 件 工 具 ， 你 得 把 整个 机 器 学 习 工 具 包 都 扔 掉 ， 那 么 梯度 
下 降 可 能 是 你 想 留 下 的 工具 。 


那么 反 回 传播 解决 机 顺 学 习 的 问题 了 吗 ? 我 们 能 否 把 一 大 堆 神 经 元 
扔 到 一 起 ， 让 它们 目 己 发 挥 魔力 ， 然 后 在 去 银行 的 路 上 ， 顺 便 领 了 详 贝 
尔 奖 ， 奖 励 你 弄 明 白 大 脑 如 何 运转 ? 唤 ， 人 生 不 会 那么 简单 。 假 设 你 的 
网 络 只 有 一 个 权 值 ， 而 图 4-5 中 的 误差 就 是 权 值 的 一 个 函数 。 


DO 


权 值 


图 4-5 


最 优 权 值 是 2.0， 这 时 的 误差 值 最 低 。 如 果 网 络 以 权 值 0.75 作 为 开 
始 ， 例 如 ， 反 向 传播 会 在 几 个 步 又 之 后 达到 最 佳 效 果 ， 束 像 球 深 下 坡 一 
样 。 但 如 果 它 以 权 值 5.5 作 为 开头 ， 反 问 传 播 会 下 滑 至 7.0， 而 且 会 停 在 
那里 。 反 问 传 播 ， 随 看 渐进 权 值 的 变化 ， 不 知道 该 如 何 找 到 全 局 误差 最 
小 值 ， 而 局 部 误差 值 可 能 会 很 糟糕， 就 像 把 你 的 祖母 错 认 成 帽子 那样 。 
有 了 一 个 权 值 ， 你 可 以 以 0.01 的 增 量 来 尝试 每 个 可 能 的 值 ， 然 后 用 那 种 
方法 找到 最 佳 效果 。 但 如 果 你 有 数 千 个 权 值 〈 数 百 万 或 者 数 十 亿 个 就 更 
不 用 次 了 ) ， 就 不 该 选 这 种 方法 ， 因 为 网 格 线 上 的 点 会 随 痢 权 值 数量 的 
增长 呈 指 数 级 上 涨 。 全 局 最 低 值 隐藏 在 浩瀚 的 超 空 间 的 茶 个 角落 里 ， 找 
到 它 束 走运 了 。 


想象 一 下 你 被 绑架 了 ， 然 后 在 到 马 拉 雅 山脉 的 某 个 地 方 被 蒙 住 眼 
睛 。 你 感到 头痛 ， 也 不 记得 什么 了 。 你 知道 的 一 切 就 是 你 得 爬 到 珠 称 朗 
玛 峰 峰 顶 。 你 会 做 什么 ? 你 回 前 走 了 几 步 ， 差 点 请 到 山沟 里 。 你 跨 了 几 
口气 之 后 ， 决 定 要 更 有 计划 地 行动 。 你 用 脚 仔 细 感 党 了 周 半 的 地 形 ， 下 
到 找到 最 高 的 点 ， 然 后 小 心 必 台 走 同 那 点 。 然 后 你 重复 同样 的 动作 。 一 
步 一 步 ， 你 走 得 越 来 越 高 。 这 台 是 梯度 上 升 。 如 果 这 个 山脉 刚好 台 是 珠 
称 朗 玛 峰 ， 而 珠 称 半 玛 峰 是 一 个 标准 的 圆锥 ， 那 它 就 很 有 吸引 力 了 。 但 
更 有 可 能 的 是 ， 当 你 到 达 一 个 地 方 ， 那 里 每 走 一 步 都 是 往 下 时 ， 那 么 你 
距离 峰 顶 还 很 远 。 这 时 你 只 是 站 在 山脚 的 某 个 地 方 ， 而 且 你 被 困 住 了 。 
这 就 是 反 向 传播 过 到 的 事情 ， 除 非 它 在 超 空 间 而 不 是 3D 空 间 中 攀登 高 
峰 。 如 果 你 的 网 络 有 单个 神经 元 ， 只 要 一 步 一 步 候 向 更 好 的 权 值 ， 你 就 
可 以 到 达 峰 项 。 但 在 多 层 感 知 右 中 ， 山 路 会 很 崎 凤 ， 找 到 最 高 的 山峰 已 
算 走运 。 


这 也 是 明 斯 基 、 派 普 特 和 其 他 人 无 法 找到 学 习 多 层 感 知 器 的 部 分 原 
因 。 他 们 可 能 想象 到 用 S 形 曲线 来 代 普 阶 路 函数 ， 然 后 进行 梯度 下 降 ， 
不 过 他 们 会 遇 到 误差 的 局 部 最 小 值 这 个 问题 。 在 那个 年 代 ， 研 究 者 们 不 
相信 计算 机 模拟 ， 他 们 需要 数学 来 证 明 算 法 可 以 起 作用 ， 而 反 向 传播 却 


没有 这 样 的 证 据 。 但 我 们 最 好 意识 到 的 是 ， 多 数 情 况 下 局 部 最 小 值 挺 好 
的 ， 不 会 有 不 良 影响 。 误 差 表 面 看 起 来 往往 像 取 猪 的 刚毛 ， 有 很 多 高 峰 
和 低谷 ， 但 如 果 我 们 找到 绝对 最 低 的 点 之 后 ， 这 真 的 不 重要 了 ， 并 且 任 
何人 都 有 可 能 找到 。 更 好 的 消 轧 是 ， 实 际 上 ， 局 部 最 小 值 可 能 更 适合 ， 
因为 它 和 全 局 最 小 值 比 ， 不 太 可 能 证 明 对 我 们 的 数据 过 拟 合 。 


超 空 间 是 一 把 双 为 剑 : 一 方面 ， 空 间 的 维度 越 高 ， 它 越 有 可 能 存在 
高 度 复 杂 的 表面 和 局 部 最 优 解 ， 夯 一 方面 ， 被 困 在 局 部 最 优 解 中 ， 意 味 
独 被 困 在 每 个 维度 中 ， 所 以 被 困 在 多 维 中 的 难度 会 比 被 困 在 三 维 中 的 难 
度 大 。 在 超 空间 中 ， 到 处 都 有 穿山 而 过 的 通道 。 那 么 ， 借 助 夏 尔 巴 人 的 
小 小 帮助 ， 反 回 传 播 往往 会 找到 通 往 完美 权 值 的 道路 。 它 可 能 仅仅 是 香 
格 里 拉 的 神秘 山谷 ， 而 不 是 海洋 ， 但 如 果 在 超 空 间 中 ， 有 数 百 万 个 这 样 
的 山谷 ， 每 个 山谷 都 有 数 十 亿 的 山口 对 着 它 ， 那 为 什么 要 抱怨 呢 ? 


然而 要 当心 ， 不 要 过 于 重视 反问 传播 找到 权 值 的 意义 。 记 住 ， 可 能 
会 有 许多 不 同 的 优 展 权 值 。 多 层 感 官 锅 中 的 学 习 活动 是 一 个 混乱 的 过 
程 ， 其 意义 在 于 从 入 有 不 同 的 地 方 开始 ， 就 会 让 你 结束 时 的 解决 方法 地 
然 不 同 。 现 象 本 映 并 无 区 别 ， 无 论 这 轻微 的 差别 是 存在 于 最 初 权 值 中 ， 
还 是 存在 于 训练 数据 中 ， 而 且 是 否 会 在 所 有 强大 的 学 习 算法 不 只 是 反 
问 传 播 ) 中 表现 出 来 。 


我 们 可 以 去 掉 S 形 曲线 来 解决 局 部 最 优 问题 ， 然 后 只 让 每 个 神经 元 
输出 其 输入 量 的 加 权 和 。 这 样 做 会 使 误 兰 变 得 非常 平 级 ， 只 剩 下 一 个 最 
小 值 一 一 全 局 最 小 值 。 虽 然 如 此 ， 问 题 是 线性 函数 的 一 个 线性 函数 也 只 
征 一 个 线性 函数 ， 那 么 线性 神经 元 的 一 个 网 络 与 单个 神经 元 几乎 一 样 。 
一 个 线性 大 脑 ， 无 论 多 大 ， 总 比 一 条 线虫 要 条 。S 形 曲线 是 线性 函数 非 
智能 性 和 阶 路 函数 难 解 性 的 完美 中 转 站 。 


感知 器 的 复仇 


反 回 传播 于 1986 年 是 由 加 州 大 学 圣 和 欠 戈 分校 的 心理 学 家 大 卫 ` 鲁 梅 
和 尔 哈 特 在 杰 夫 :六 顿 以 及 罗 纳 德 : 威 廉 斯 的 协助 下 发 明 出 来 的 。 他 们 表明 
肥 疝 传播 还 可 以 学 习 XOR， 这 让 联结 学 派对 明 斯 基 和 派 普 特 哄 之 以 腊 。 
回顾 之 前 耐 殉 的 例子 : 年轻 男性 和 中 年 妇女 最 有 可 能 购买 耐克 鞋 。 其 
中 ， 我 们 可 以 用 三 个 神经 元 的 网 络 来 代表 : 第 一 个 神经 元 看 到 年 轻 男性 
时 会 放电 ; 第 二 个 神经 元 在 看 到 中 年 女性 时 会 放电 ; 第 三 个 神经 元 看 到 
其 中 一 个 时 会 放电 。 通 过 反 回 传播， 我们 可 以 擎 握 适 当权 值 ， 最 后 成 功 
完成 耐 区 的 前 景 预测 《〈 马 文 ， 事 情 就 是 这 样 ， 没 什么 可 说 的 ) 。 


早期 在 证 明 反 同 传播 力量 的 时 候 ， 特 里 : 索 话 斯 基 和 查尔斯 : 罗 森 伯 
格 训练 了 一 台 多 层 感 知 器 ， 让 其 大 声 朗 读 。 他 们 的 网 络 聊天 系统 浏览 文 
本 ,根据 背景 选择 准确 的 首 每 ， 然 后 加 入 语 首 合成 副 。 他 们 的 网 络 聊天 
不 仅 适 用 于 新 词 一 一 这 是 基于 知识 的 系统 无 法 做 到 的 一 一 网 络 聊天 系统 
还 可 以 说 话 ， 而 且说 得 和 人 类 极为 相似 。 索 诡 斯 基 过 去 经 第 在 研究 会 议 
上 通过 播放 网 络 聊 天 进展 的 磁带 来 对 观众 进行 众 眠 : 一 开始 是 牙牙 学 
语 ， 然 后 开始 能 让 人 们 听 懂 ， 最 后 说 得 很 流利 ， 只 是 侦 尔 会 犯错 。 


神经 网 络 第 一 次 取得 大 的 成 功 是 准确 预测 股票 市 场 。 因 为 神经 网 络 
可 以 在 噪声 很 大 的 数据 中 探测 到 微小 非 线 性 ， 它 们 打败 线性 模型 ， 并 在 
金融 领域 流行 起 来 ， 它 们 的 应 用 也 变 得 更 广泛 。 典 型 的 投资 基金 会 为 每 
大 批 股 票 训练 出 一 个 分 离 的 网 络 ， 让 神经 网 络 挑 出 最 有 希望 的 选项 ， 然 
后 让 人 类 分 析 师 来 决定 该 投资 哪些 股票 。 然 而 ， 有 几 只 基金 顺利 通过 挑 
选 ， 学 习 算法 会 自行 买卖 这 些 基 金 。 这 些 过 程 到 底 如 何 进行 的 仍 是 个 秘 
密 ， 但 机 器 学 习 算 法 一 二 处 于 不 为 人 所 知 的 状态 ， 然 后 以 惊人 的 速度 进 
入 对 冲 基 金 ， 这 也 许 并 非 偶然 。 


非 线性 模型 不 仅 在 股票 市 场 有 重要 作用 ， 在 其 他 很 多 领域 中 也 是 如 
此 。 科 学 家 们 到 处 使 用 线性 回归 ， 因 为 那 就 是 他 们 知道 的 东西 ， 但 是 通 
常 他 们 研究 的 现象 又 都 是 非 线性 的 ， 一 全 多 层 感知 器 就 可 以 模拟 这 些 现 
象 。 线 性 模型 对 相 变 不 了 解 ， 神 经 网 络 像 海 绢 一 样 把 它们 吸收 了 了 。 


网 络 神经 早期 的 另外 一 个 成 功 之 处 在 于 掌握 驾车 技能 。 无 人 驾驶 汽 
车 在 2004 一 2005 年 的 DARPA 大 挑战 中 才 进 入 公众 视野 ， 但 早 在 10 年 
前 ， 卡 内 基 - 梅 隆 大 学 的 研究 员 就 已 经 成 功 训练 出 一 台 多 层 感 知 器 来 驾 
驶 汽车 ， 方 法 就 是 探测 视频 图 像 中 的 路 面 ， 然 后 适当 转动 方向 盘 。 卡 内 
基 -- 梅 隆 大 学 的 无 人 轰 驶 汽车 可 以 沿 着 海关 跨越 美国 ， 而 其 视力 却 非常 
模糊 (30x30 像 素 ) ， 其 大 脑 比 虫子 的 大 脑 还 要 小 ， 但 仅仅 通过 人 类 副 
鸭 驶 员 的 几 次 协助 就 完成 了 此 次 任务 〈 该 计划 被 称 为 “ 横 穿 美国 的 实 
验 ”) 。 这 可 能 不 是 第 一 辆 真正 意义 上 的 无 人 驾驶 汽车 ， 但 和 一 些 未 成 
年 司机 相 比 ， 它 更 靠 谱 。 


如 今 反 回 传 播 的 应 用 太 多 了 ， 数 不 过 来 。 随 着 它 为 越 来 越 多 的 人 知 
道 ， 关 于 它 的 更 多 历史 也 被 挖掘 出 来 。 原 来 ， 反 问 传 播 不 止 一 次 被 创造 
出 来 ， 在 科学 领域 这 是 常 有 的 事 。 来 自 法 国 的 伊 恩 : 勒 坤 (Yann 
LeCun) 和 其 他 人 偶然 发 现 了 它 ， 和 重 梅 尔 哈 特 发 现 的 时 间 差 不 多 。20 
世纪 80 年 代 ， 有 一 篇 关于 反 疝 传播 的 论文 被 领先 人 工 智 能 会 议 否 定 了 ， 
因为 根据 评论 者 的 观点 ， 明 斯 基 和 和 派 普 特 已 经 证 实感 知 器 无 法 起 作用 。 
实际 上 ， 和 鲁 梅 尔 哈 特 已 经 通过 哥伦布 测试 获得 反 疝 传播 发 明 者 的 荣誉 : 
哥伦布 不 是 第 一 个 发 现 美洲 大 陆 的 人 ， 但 他 却 是 最 后 一 个 。 原 来 ， 哈 佛 
大 学 研究 生 保罗 .韦伯 斯 已 经 在 1974 年 的 博士 论文 中 提出 类 似 的 算法 。 
非常 讽刺 的 是 ， 亚 瑟 . 布 莱 森 和 何 散 琦 〈 两 位 控制 理论 家 ) 早 就 已 经 做 
了 同样 的 事情 “1969 年 明 斯 基 和 派 普 特 出 版 《感知 右 》 的 同一 年 )。 的 
确 ， 机 器 学 习 本 和 映 的 历史 表明 我 们 为 什么 需要 学 习 算法 。 如 果 能 自行 在 
科学 文献 中 找到 相关 论文 的 算法 在 1969 年 已 经 出 现 ， 它 们 就 可 以 避免 几 
十 年 时 间 的 浪费 ， 并 加 快 传播 “ 谁 知道 有 什么 发 现 ” 这 样 的 信息 。 

在 感知 器 历史 众多 有 讽刺 意味 的 事件 中 ， 也 许 最 让 人 悲伤 的 一 件 事 


就 是 ， 弗 兰 死 ' 罗 和 森 布 拉 特 于 1969 年 在 切 萨 皮 克 湾 的 一 起 轮船 事故 中 离 
世 ， 没 有 活着 看 到 他 创造 的 东西 得 到 进一步 应 用 。 


一 个 完整 的 细胞 模型 


活 细胞 就 是 非 线性 系统 的 典型 例子 。 细 胞 发 挥 其 所 有 功能 的 方式 ， 
就 是 通过 化 学 反应 的 复杂 网 络 ， 将 原材料 转化 为 最 终 产 物 。 我 们 利用 符 
写 学 派 的 方法 ， 比 如 逆 癌 演绎 ， 可 以 找到 这 个 网 络 的 结构 ， 正 如 我 们 在 
第 四 章 看 到 的 那样 。 但 是 为 了 构建 一 个 完整 的 细胞 模型 我们 需要 得 到 
定量 因素 ， 掌 握 结合 了 不 同 基因 表达 水 平 的 参数 ， 还 需要 将 环境 变量 与 
内 部 变量 结合 起 来 .…... 做 到 这 些 很 难 ， 因 为 这 些 数量 之 间 并 没有 简单 的 
线性 关系 。 细 胞 通过 对 反馈 回路 进行 互 锁 来 维持 稳定 ， 这 会 引起 非常 复 
杂 的 活动 。 反 辐 传 播 很 适合 解决 这 个 问题 ， 因 为 它 能 够 有 效 掌 握 非 线性 
函数 。 如 宋 我 们 有 完整 的 细胞 代谢 路 径 图 ， 以 及 对 所 有 相关 变量 足够 的 
观察 ， 原 则 上 ， 反 向 传播 可 以 掌握 细胞 的 详细 模型 ， 利 用 多 层 感 官 器 根 
据 直 接 起 因 预 测 每 个 变量 。 


然而 ， 对 于 可 预见 的 未 来 ， 我 们 仅仅 掌握 细胞 代谢 网 络 的 部 分 知 
识 ， 也 只 掌握 了 我 们 想 掌 握 的 一 部 分 变量 。 面 对 信息 缺失 以 及 所 有 可 用 
言 恩 不 可 避免 的 矛盾 ， 要 和 擎 握 有 用 的 模型 束 需 要 利用 贝 叶 斯 方法 ， 在 第 
六 章 我 们 会 深入 研究 这 个 问题 。 对 特殊 患者 进行 预测 也 是 同样 的 道理 ， 
掌握 模型 .可 利用 的 证 据 必 然 会 杂乱 和 不 完整 ， 但 贝 叶 斯 推理 会 充分 利 
用 它 。 它 起 到 作用 了， 如果 把 治愈 癌症 作为 目标 ， 我 们 不 必 知 道 况 细胞 
运转 的 所 有 细 三 ， 只 需要 知道 如 何在 不 损害 正常 细胞 的 情况 下 ， 使 姻 细 
胞 失去 繁殖 能 力 ， 这 就 足够 了 。 在 第 六 章 中 ， 我 们 也 会 看 到 如 何 避 开 我 
们 不 知道 也 不 必 知 道 的 事 ， 使 学 习 面 问 目 标 。 


更 直接 的 是 ， 我 们 可 以 利用 逆 同 演绎 从 数据 及 之 前 的 知识 中 推导 出 
细胞 网 络 的 结构 ， 但 应 用 它 的 方法 可 以 呈现 出 组 合 爆炸 式 增 长 ， 我 们 需 
要 的 是 一 个 策略 。 既 然 代 谢 网 络 由 进化 来 决定 ， 也 许 在 我 们 的 学 习 算 法 
中 对 其 进行 刺激 才 是 可 行 办 法 。 在 第 五 章 中 ， 我 们 会 看 到 如 何 做 到 这 一 
点 。 


大脑 的 更 深 处 


在 反问 传播 初次 进入 公众 视线 时 ， 联 结 学 派 幻 想 能 够 快速 掌握 越 来 
越 大 规模 的 网 络 ， 和 直到 人 硬件 允许 的 条 件 下 ， 这 些 网 络 等 同 于 人 工大 脑 。 
结果 却 并 非 如 此 。 尘 握 拥 有 一 个 隐 含 层 的 网 络 没 问 题 ， 但 在 那 之 后 ， 很 
快 事情 就 会 变 得 很 困难 。 几 层 的 网 络 ， 只 有 为 了 应 用 《比如 文字 识别 ) 
而 经 过 精心 设计 的 才能 起 作用 。 超 出 这 个 范围 ， 有 反问 传播 就 会 次 痪 。 随 
者 我 们 增加 越 来 越 多 的 层 数 ， 误 兰 信 号 会 变 得 越 来 越 散 误 ， 惑 像 河流 分 
成 越 来 越 小 的 文 流 ， 直 到 我 们 只 剩 下 雨滴 ， 不 留 痕迹 。 利 用 几 十 或 数 百 
个 隐藏 层 来 进行 学 习 ， 惑 像 大 脑 一 样 ， 过 去 是 一 个 遥远 的 梦 ， 而 到 了 20 
世纪 90 年 代 中 期 ， 对 多 层 感 知 器 的 热情 已 经 逐渐 消减 。 联 结 学 派 的 中 坚 
分 子 仍 在 坚持 ， 但 总 的 来 说 ， 人 们 对 机 器 学 习 领 域 的 关注 度 已 经 转移 到 
别 的 领域 《在 第 六 章 和 第 七 章 中 我 们 会 探索 这 些 领 域 ) 。 


然而 ， 如 今 联 结 学 派 又 复活 了 。 我 们 比 现 在 掌握 了 更 深层 的 网 络 ， 
而 且 这 些 网 络 在 视觉 、 语 首 识 别 、 药 物 研制 和 其 他 领域 都 在 设 定 新 标 
准 。 这 个 领域 新 的 深入 学 习 成 果 被 刊登 在 《纽约 时 报 》 的 头 版 上 。 往 发 
动机 盖 下 面 看 ..…... 惊 豆 : 古 值 得 信赖 的 老式 反 回 传播 友 动 机 ， 还 在 喻 叭 
作 啊 。 什 么 发 生 改 变 了 ? 评论 家 说 ， 没 什么 大 的 改变 : 只 是 计算 机 变 得 
更 快 了 ， 数 据 变 得 更 大 了 。 辛 顿 和 其 他 人 答 道 : 确实 ， 我 们 一 直 都 没 
错 ! 


实际 上 ， 联 结 学 派 有 实质 性 的 进步 。 如 果 联 结 学 派 是 过 山 车 ， 那 么 
对 于 最 近 的 过 山 车 转变， 页 献 者 之 一 的 就 是 一 个 看 上 去 普通 的 小 设备 ， 
称 为 “上 自动 编码 右 ”。 目 动 编码 器 就 是 一 合 多 层 感 知 器 ， 其 输出 量 和 输入 
量 一 样 。 输 入 一 张 你 祖母 的 照片 ， 然 后 输出 的 还 是 你 祖母 的 照片 。 起 
初 ， 这 束 像 一 个 加 屯 的 想法 : 这 样 一 个 奇异 的 装置 可 能 有 什么 用 ? 答案 
就 是 ， 让 隐藏 层 比 输入 和 输出 层 小 很 多 ， 那 么 网 络 就 不 会 只 把 输入 信息 
复制 到 隐藏 层 ， 然 后 再 从 隐藏 层 复制 到 和 输出 信息 那里 ， 在 这 种 情况 下 ， 


我 们 可 能 也 会 把 所 有 东西 都 扔 出 去 。 但 如 果 隐 藏 层 变 小 了 ， 就 会 发 生 有 
趣 的 事情 : 网 络 会 被 迫 将 输入 信息 编码 在 更 少 的 比特 里 ， 那 样 在 隐藏 层 
就 可 以 表示 出 来 了 ， 然 后 网 络 会 解压 那些 信息 ， 还 原 到 原来 的 大 小 。 例 
如 ， 它 可 以 对 你 祖母 百 万 像素 的 照 厂 进 行 编码 ， 变 成 仅仅 7 个 字母 的 单 
词 “grandma”， 或 者 它 自己 创造 出 来 的 更 短 代 码 ， 同 时 学 习 

将 “grandma” 解 码 成 一 个 老奶奶 的 照片 。 因 此 ， 一 台 目 动 编码 器 就 像 一 
个 文件 压缩 工具 ， 它 有 两 个 重要 的 优点 : 知道 如 何 自 行 压缩 东西 ， 和 和 翟 
普 菲 尔 德 网 络 一 样 ， 可 以 把 一 张 杂 乱 、 扭 曲 的 图 片 变 得 干净 清晰 。 


目 动 编码 器 于 20 世 纪 80 年 代为 人 所 知 ， 昌 然 有 一 个 单个 隐藏 层 ， 但 
它 很 难 学 习 。 要 弄 明 日 怎样 把 众多 信息 打包 压缩 至 几 个 相同 比特 大 小 ， 
是 非常 难 的 问题 (一 个 代码 是 你 的 祖母 ， 另 一 个 稍 有 不 同 的 代码 是 你 的 
祖父 ， 再 一 个 是 詹妮弗 安妮 斯 顿 ， 等 等 ) 。 超 空间 里 的 地 形 实在 是 太 
崎 岂 ， 让 人 无 法 到 达 峰 项 ， 隐 藏 的 单位 要 掌握 输入 量 的 过 多 XOR 相 当 于 
什么 。 因 此 自动 编码 器 并 没有 真正 跟 上 步伐 。 花 了 十 余年 来 寻找 的 诀 
穷 ， 就 是 让 隐藏 层 比 输入 和 输出 层 大 一 些 。 啊 ?实际 上 ， 这 只 是 一 半 的 
诀 穷 : 另 一 半 就 是 ， 在 任何 特定 时 间 ， 只 把 几 个 隐藏 的 单位 赶 走 。 这 样 
做 仍然 会 阻止 隐藏 层 对 和 输入 层 进 行 复 制 ， 而 且 关 键 是 ， 这 样 做 把 学 习 变 
得 更 简单 了 。 如 宋 我 们 允许 用 不 同比 特 来 代表 不 同 输入 层 ， 那 么 输入 层 
就 不 再 需要 争 相 设置 相同 的 比特 。 同 样 ， 网 络 现在 有 比 之 前 多 很 多 的 参 
数 ， 那 么 你 所 处 的 超 空间 会 有 更 多 的 维度 ， 而 你 也 有 更 多 的 方法 来 逃 出 
局 部 最 大 值 的 困境 。 这 束 叫 作 黎 芷 目 动 编码 器 ， 而 它 是 一 个 诀 穷 。 


虽然 如 此 ， 我 们 还 没有 看 到 任何 深入 的 学 习 行 为 。 下 一 个 聪明 的 主 
意 束 是 把 稀 玻 自动 编码 器 逐个 堆积 起 来 ， 就 像 一 个 多 层 三 明治 那样 。 第 
一 个 自动 编码 器 的 隐藏 层 变 成 第 二 个 的 输入 或 输出 层 ， 依 此 类 推 。 因 为 
神经 元 是 非 线性 的 ， 每 个 隐藏 层 会 党 握 输 入 层 更 为 复杂 的 表达 方式 ， 在 
前 一 个 隐藏 层 的 基础 上 进行 构建 。 给 定 大 批 的 面部 图 片 ， 第 一 个 目 动 编 
码 絮 会 对 局 部 特征 ， 如 棱角 和 斑点 进行 编码 ;， 第 二 个 目 动 编码 器 利用 这 
些 信息 来 对 诸如 鼻尖 、 眼 睛 的 虹膜 这 些 面 部 特征 进行 编码 ， 第 三 个 掌握 


整个 里 子 和 眼睛 的 面部 特征 等 。 最 终 ， 最 顶端 的 一 层 可 以 是 一 台 传 统 的 
感知 器 ， 会 通过 下 一 层 编码 器 提供 的 上 层 特征 来 识别 你 的 祖母 ， 这 和 只 
利用 单个 隐藏 层 提 供 的 粗糙 信息 ， 以 及 对 所 有 层 进行 反 加 传播 相 比 ， 要 
简单 得 多 。 登 上 《纽约 时 报 》 的 谷歌 大 脑 网 络 是 一 个 由 自动 编码 器 和 其 
他 材料 组 成 的 9 层 三 明治 ， 能 够 从 视频 网 站 YouTube 的 视频 中 识别 出 
猫 。 它 包含 数 十 亿 个 连接 ， 是 当时 能 够 进行 学 习 的 最 大 网 络 。 不 足 为 奇 
的 是 ， 吴 恩 达 《该 项 目的 主要 负责 人 之 一 ) 也 是 支持 “< 人 类 智能 可 以 归 
结 为 单个 算法 ”这 个 思想 的 主要 人 物 。 吴 恩 达 平易 近 人 且 很 有 志 癌 ， 认 
为 登 加 在 一 起 的 黎 牙 自动 编码 霹 能 够 帮助 我 们 更 好 地 解决 人 工 乔 能 问 
题 ， 比 之 前 的 任何 方法 都 行 得 通 。 


登 加 目 动 编码 器 不 是 唯一 的 深度 学 习 算 法 ， 另 外 一 种 以 玻 尔 效 曼 机 
器 作为 基础 ， 还 有 一 种 一 一 卷 积 神经 网 络 ， 则 把 视 皮 质 模型 作为 基础 。 
尽管 取得 了 很 大 的 成 功 ， 然 而 这 些 成 果 仍 与 大 脑 相 去 其 远 。 谷 歌 网 络 可 
以 识别 出 猫 脸 的 正面 ， 人 类 可 以 认 出 各 种 姿势 的 猫 ， 甚 至 在 很 难 辨认 脸 
部 时 也 能 认 出 。 谷 歌 网 络 仍 非常 肤浅 ， 它 9 层 里 面 只 有 3 层 是 自动 编码 
项 。 多 层 感知 器 是 小 脑 还 算 不 错 的 模型 ， 大 脑 的 这 部 分 负责 低 水 平 运动 
控制 ， 但 皮质 就 不 一 样 了 。 筷 缺失 用 于 传播 误 关 的 逆 癌 连接 ， 但 它 是 学 
习 这 个 魔法 的 真正 所 在 。 杰 夫 : 稚 金 斯 在 《人 工 知 能》 一 书 中 ， 提 倡 紧 
紧 地 把 皮质 组 织 形 式 作 为 基础 ， 进 行 算法 设计 ， 但 到 目前 为 止 ， 没 有 一 
个 算法 能 够 与 今天 的 深度 网 络 相 比 。 


随 大 我们 对 大 脑 理 解 的 深入 ， 这 种 情况 可 能 会 改变 。 受 到 人 类 基因 
组 计划 的 局 示 ， 神 经 连接 组 学 正在 力求 绘制 出 大 脑 中 的 每 个 突 触 。 欧 盟 
正在 进行 10 亿 欧元 的 投资 ， 用 于 构建 大 脑 一 应 俱全 的 模型 。 美 国 的 大 脑 
计划 也 有 相似 的 目标 ， 仅 仅 2014 年 的 基金 束 达 到 1 亿美 元 。 虽 然 如 此 ， 
符号 学 派对 这 种 寻找 终极 算法 的 方法 仍 非常 怀疑 。 昌 然 我 们 可 以 在 单个 
突 触 水 平 上 想象 完整 的 大 脑 ， 但 是 我 们 需要 更 好 的 机 器 学 习 算 法 ， 来 将 
那些 想象 的 图 片 变 成 布线 图 ， 仪 仅 用 手 来 完成 是 不 可 能 的 。 更 糟 料 的 
和 是， 即使 有 了 大 脑 的 完整 构图 ， 我 们 仍然 不 知道 它 在 和 干什么。 秀丽 线虫 


的 神经 系统 仅仅 由 302 个 神经 元 组 成 ， 而 且 在 1986 年 被 完整 绘制 出 来 ， 

但 关于 它 干 什么 ， 我 们 也 仅仅 了 解 了 一 部 分 。 我 们 需要 更 高 水 平 的 概 

念 ， 用 来 搞 明 白 底 层 细 节 这 个 难题 ， 吻 除 那些 针对 人 脑 或 只 针对 进化 怪 
癣 的 细节 。 我 们 不 会 通过 对 羽毛 进行 逆 癌 工程 来 制造 飞机 ， 而 飞机 也 不 
会 拍 翅膀 。 飞 机 是 在 气体 力学 的 基础 上 设计 的 ， 所 有 飞行 的 物体 都 必须 
遵循 气体 力学 原则 。 我 们 还 是 没有 理解 那些 想法 的 类 似 原 则 。 


也 许 神经 连接 组 学 有 点 过 分 了。 联结 学 派 的 一 些 人 高 调 称 ， 有 反问 传 
播 就 是 终极 算法 ， 而 我 们 只 需要 扩大 反 向 传播 的 规模 。 但 符号 学 派对 这 
种 想法 不 悄 一 顾 ， 他 们 指出 一 长 串 人 类 能 做 但 神经 网 络 做 不 了 的 事情 。 
按照 种 识 进 行 推理 ， 这 就 涉及 把 之 前 从 来 没有 被 放 在 一 起 的 信息 组 合 在 
一 起 。 玛 丽 午饭 吃 鞋 子 吗 ? 不 ， 因 为 玛丽 是 人 ， 人 类 只 吃 能 吃 的 东西 ， 
而 鞋子 不 能 吃 。 符 号 系统 做 到 这 些 没 有 问题 一 一 它 只 会 把 相关 规则 串 起 
来 ， 但 是 多 层 感 知 器 却 做 不 到 这 一 点 。 一 旦 完成 学 习 ， 它 只 会 不 断 计 算 
同一 个 指定 函数 。 神 经 网 络 不 是 组 合 出 来 的 ， 而 语意 合成 性 是 人 类 认 知 
的 一 大 部 分 。 男 外 一 个 大 问题 就 是 人 类 ， 以 及 诸如 规则 集 和 决策 树 之 类 
的 答 写 模型 ， 可 以 对 它们 的 推理 进行 解释 ， 而 神经 网 络 是 一 大 堆 没 人 能 
看 异 的 数字 。 


但 是 如 果 人 类 具备 所 有 这 些 能 力 ， 大 脑 不 经 过 调整 突 触 就 能 掌握 这 
些 能 力 ， 那 么 这 些 能 力 从 何 而 来 ? 除非 你 相信 和 魔法， 答案 一 定 是 : 通过 
进化 得 来 。 如 果 你 是 联结 学 派 怀 疑 论 者 ， 而 且 有 勇气 肯定 自己 的 观点 ， 
应 该 弄 明 白 进化 如 何 掌握 孩子 出 生 就 知道 的 所 有 东西 一 一 你 越 觉得 是 天 
生 的 ， 要 求 也 就 越 蜗 。 如 果 你 弄 明 白 了 ， 然 后 对 计算 机 进行 编程 来 完成 
这 个 任务 ， 别 人 否认 你 已 经 发 明了 终极 算法 的 至 少 一 个 版 本 ， 这 会 显得 
十 分 无 礼 。 


第 五 章 
进化 学 派 : 目 然 的 学 习 算 法 


机 器 人 公园 是 一 个 巨大 的 机 器 人 工厂 ， 被 1 万 平方 英里 的 从 林 、 城 
市 等 包 于 着 。 感 觉 那个 丛林 就 是 人 类 建造 过 的 最 高 、 最 厚 的 增 ， 布 满 哨 
所 、 探 照 灯 、 炮 塔 。 这 堵 场 有 两 个 作用 : 把 入 侵 者 挡 在 外 面 ， 把 公园 
的 “居民 ”( 数 百 万 个 为 工 三 生存 而 战 、 对 工 广 进行 管理 的 机 器 人 ) 保护 
在 里 面 。 获 胜 的 机 器 人 能 够 “ 产 卵 "， 它 们 完成 繁殖 的 方法 就 是 通过 对 体 
内 的 3D 打 印 机 储 库 进 行 编程 。 慢 慢 地 ， 机 器 人 变 得 更 智能 、 更 快速 以 
及 更 致命 。 机 器 人 公园 由 美军 运营 ， 其 目标 是 使 终极 战士 进化 。 


机 器 人 公园 现在 还 不 存在 ， 但 有 一 天 它 可 能 就 会 出 现 。 我 建议 把 它 
作为 几 年 前 DAPRA 美国 国防 部 先进 计划 研究 局 ) 研讨 会 的 一 个 思维 
实验 ， 而 出 席 该 会 议 的 一 位 军队 高 层 人 士 实事 求 是 地 说 :“ 那 个 想法 可 
行 。” 但 如 果 这 文 盏 队 为 了 训练 士兵， 已 经 在 加 州 沙漠 对 阿富汗 村 落 进 
行 全 面 模拟 ， 模 拟 中 还 包括 村 民 ， 而 且 为 了 塔 养 终 极 战士 ， 几 十 亿美 元 
也 只 是 个 小 数目 。 想 到 这 些 ， 他 这 么 爽快 地 认可 这 个 想法 ， 就 不 会 觉得 
多 么 让 人 吃惊 了 。 


人 们 已 经 开始 向 机 器 人 公园 迈 出 第 一 步 。 在 霍 德 : 利 普 森 位 于 康 寻 
尔 大 学 的 创意 机 占 实 验 室 中 ,奇形怪状 的 机 器 人 正在 学 习 扑 行 和 飞行 ， 


可 能 正巧 它们 在 做 这 些 时 ， 你 也 正 读 到 这 里 。 其 中 一 个 机 器 人 看 起 来 像 
胶 块 垒 成 的 滑行 塔 ， 妃 外 一 个 像 装 了 晴 晓 翅膀 的 和 直升机， 还 有 一 个 能 变 
形 的 万 能 工匠 。 这 些 机 器 人 并 不 是 人 类 工程 师 设 计 出 来 的 ， 而 是 进化 而 
来 的 ， 和 地 球 上 生命 多 样 性 产生 的 过 程 一 样 。 虽 然 机 器 人 最 初 在 计算 机 
的 模拟 中 得 以 进化 ， 一 旦 这 些 机 器 人 的 技术 达到 熟练 水 平 ， 足 以 在 真实 
世界 中 和 运用， 真实 版 的 机 器 人 融会 通过 3D 打 印 机 被 制造 出 来 。 这 些 机 
器 人 还 没有 做 好 和 擎 管 世界 的 准备 ， 但 和 开始 时 的 “原生 汤 ?” 模 拟 物 相 比 ， 
它们 已 经 有 了 很 大 进步 。 


使 这 些 机 器 人 进化 的 算法 ， 是 19 世 纪 由 查尔斯 -达尔 文 发明 的 。 那 
时 他 不 觉得 这 是 一 种 算法 ， 部 分 原因 在 于 当时 仍 缺 少 一 个 关键 的 子 程 
序 。 一 旦 1953 年 詹姆斯 : 湛 森 和 弗朗西斯 : 克 里 克 提供 了 该 子 程 序 ， 进 化 
束 会 进入 第 二 个 阶段 :该 进化 是 在 计算 机 中 而 不 是 在 活体 中 进行 ， 而 且 
会 比 活体 进化 快 10 亿 倍 。 该 子 程序 的 提倡 者 是 一 位 面色 红润 、 永 远 面 带 
微笑 的 中 西部 人 ， 名 叫 约 珍 ' 霍 兰 德 。 


达尔 文 的 算法 


和 许多 其 他 早期 的 机 器 学 习 研 究 者 一 样 ， 霍 兰 德 开始 时 研究 的 是 神 
经 网 络 ， 但 他 的 兴趣 使 情况 发 生 转 变 。 在 密歇根 大 学 读 研 究 生 时 ， 他 阅 
读 了 罗 纳 德 . 费 雪 〈Ronald Fisher) 的 经 典 著 作 《 目 然 选 择 的 遗传 理论 》 
(The Genet: Cal Theory of Natural Selection) 。 在 该 著作 中 ， 同 时 作为 
现代 统计 学 芮 基 人 的 费 雪 ， 提 出 了 关于 进化 的 第 一 套数 学 理论 。 虽 然 这 
个 理论 很 妙 ， 但 霍 兰 德 认 为 它 遗 漏 了 进化 论 的 精华 。 费 雪 扳 立地 看 待 每 
个 基因 ， 但 是 有 机 体 的 适应 度 就 是 它 所 有 函数 的 复 值 函数 。 如 果 基 因 都 
是 独立 的 ， 它 们 变量 的 相对 频率 会 快速 收敛 至 最 大 适应 点 ， 然 后 从 此 保 
持 均 衡 。 但 如 果 基 因 相 互 作用 ， 进 化 (追求 最 大 适应 度 ) 就 要 复杂 得 


多 。 如 果 有 1000 个 基因 ， 每 个 基因 有 两 个 变量 ， 那 么 基因 组 就 有 21000 
种 可 能 的 状态 ， 宇 宙 中 没有 哪个 星球 可 以 大 到 或 者 古老 到 能 够 一 一 尝试 
这 些 可 能 。 但 是 在 地 球 上 ， 通 过 进化 可 以 得 到 适应 力 很 强 的 有 机 体 ， 而 
达尔 文 的 自然 选择 理论 至 少 从 数量 上 解释 了 怎样 找到 这 样 的 有 机 体 。 霍 
兰 德 决 定 将 其 变 成 一 种 算法 。 


但 他 首先 得 毕业 。 他 谨 避 地 为 其 论文 选择 了 一 个 更 为 保守 的 主题 

布尔 周期 电路 ，1959 年 他 获得 了 计算 机 科学 领域 的 首 个 博士 学 位 。 
即便 如 此 ， 他 读 博 士 期 间 的 导师 亚 登 . 伯 克 斯 激发 了 霍 兰 德 在 进化 计算 

领域 的 兴趣 ， 并 帮助 他 在 密 鞭 根 找 到 了 教师 工作 ， 还 让 他 避 开 那些 不 把 
进化 计算 归 入 计算 机 科学 的 资深 同事 。 伯 元 斯 本 人 思想 很 开明 ， 因 为 他 
之 前 束 已 经 是 约 卫 : 冯 : 话 依 曼 的 亲密 合作 伙伴 。 冯 : 诡 依 曼 证 明了 上 自我 再 
生机 器 的 可 能 性 。 的 确 ， 自 从 1957 年 冯 : 诺 依 曼 因 为 癌症 逝世 后 ， 完 成 
这 个 工作 的 重任 束 落 到 了 伯 克 斯 肩 上 。 在 当时 遗传 学 和 计算 机 科学 的 原 
台 水 平 下 ， 冯 : 族 依 曼 能 够 证 明 这 种 机 器 的 存在 ， 这 已 经 很 了 不 起 。 但 
他 的 机 器 人 人 乔 能 仅 能 复制 和 自己 一 模 一 样 的 副本 ， 要 制造 出 进化 版 的 机 
器 人 ， 还 得 由 霍 兰 德 来 完成 。 


随 着 霍 兰 德 的 创作 渐渐 为 人 所 知 ， 遗 传 算法 的 关键 输入 就 是 一 个 适 
应 度 函 数 。 给 定 一 个 待定 程序 和 某 个 设 定 的 目标 ， 适 应 度 函 数 会 给 程序 
打分 ， 反 映 它 与 目标 的 契合 度 。 在 目 然 选择 当中 ， 适 应 度 是 否 能 这 样 解 
释 ， 值 得 怀疑 : 虽然 地 膀 对 于 飞行 的 适应 度 很 高 ， 这 个 说 法 很 直观 ， 但 
整个 进化 过 程 却 没有 已 知 的 目标 。 即 便 如 此 ， 在 机 器 学 习 中 ， 掌 握 诸如 
适应 度 函 数 这 样 的 事情 还 是 很 容易 的 。 如 末 我 们 需要 一 个 能 够 诊断 疾病 
的 程序 ， 如 采 一 种 算法 能 够 正确 诊断 我 们 数据 库 中 60% 的 病人 ， 这 样 的 
算法 束 比 准确 紊 仅 为 55% 的 算法 要 好 ， 所 以 可 行 的 适应 度 函 数 能 够 帮助 
准确 诊断 。 


就 这 一 点 而 言 ， 遗 传 算法 就 有 点 像 选 择 育 种 。 达 和 尔 文 在 《物种 起 
源 》 开 篇 时 就 谈 到 这 个 问题 ， 层 层 深入 ， 解 释 较 难 理解 的 目 然 选择 概 


念 。 现 在 我 们 自然 而 然 地 认为 ， 经 过 驯化 的 动 植物 就 是 一 代 一 代 经 过 选 
择 和 交配 的 结果 ， 是 最 能 让 我 们 达到 各 种 用 途 的 有 机 体 : 果实 最 大 的 玉 
米 、 最 醋 的 果树 、 毛 最 多 的 羊 、 最 强健 的 马匹 。 遗 传 算法 也 会 做 同样 的 
事情 ， 它 产 出 的 是 程序 而 不 是 活 的 生物 体 ， 而 一 代 对 它 而 言 是 几 秒 的 计 
算 机 时 间 ， 而 不 是 生物 的 一 生 。 


适应 度 函 数 将 人 在 这 个 过 程 中 扮演 的 角色 概括 化 了 。 但 和 人 的 角色 
相 比 ， 更 为 微妙 的 部 分 是 自然 的 角色 。 开 始 ， 是 一 群 适应 力 不 那 么 强 的 
个 体 〈 可 能 是 完全 随机 的 个 体 ) 遗传 算法 得 找 出 变量 ， 然 后 这 些 变 量 依 
据 适 应 度 而 被 选择 。 上 自然 怎样 做 到 这 一 点 ?达尔 文 不 知道 。 这 束 是 遗传 
算法 的 一 部 分 。DNA 依 据 碱 基 对 的 序列 对 有 机 体 进行 编码 ， 同 理 ， 我 们 
也 可 以 依据 一 串 二 进 制 数字 对 程序 进行 编码 。DNA 的 4 个 基本 组 成 单 
位 ， 不 是 0 和 1， 而 是 4 个 基本 碱 基 ， 包 括 腺 嗓 哈 、 胸 腺 喀 啶 、 胞 喀 史 、 
鸟 野 叭 ， 但 这 仅仅 是 表面 上 的 差异 。 变 量 ， 无 论 在 DNA 序 列 中 ， 还 是 在 
位 串 中 ， 都 可 通过 几 种 方法 产生 。 最 简单 的 方法 就 是 点 突变 ， 即 随意 翻 
转 位 串 中 的 一 个 比特 值 ， 或 者 改变 一 段 DNA 中 的 单个 基本 碱 基 。 但 对 堆 
兰 德 来 说 ， 遗 传 算法 的 真正 威力 在 于 更 为 复杂 的 东西 : 性 。 


把 外 衣 脱 光 ， 只 剩 下 基本 部 位 〈 请 不 要 笑 出 声 ) ， 有 性 生殖 包括 在 
父亲 和 母亲 的 染色 体 之 间 进 行 材料 交换 ， 这 个 过 程 称 作 染色 体 交 叉 。 这 
个 过 程 会 产生 两 条 新 的 染色 体 ， 一 条 染色 体 交 叉 点 的 一 边 是 母亲 的 染色 
体 ， 另 外 一 边 则 是 父亲 的 染色 体 ， 男 外 一 条 则 相反 ( 见 图 5-1)。 

加 父母 的 染色 体 后 代 的 染色 体 
EPEEETEETTO CC 生生 
i I ET 
M 母亲 的 染色 体 下 “父亲 的 染色 体 
图 5 - 1 


遗传 算法 通过 模拟 这 个 过 程 发 挥 作用 。 它 为 每 一 代 中 两 个 适应 力 最 


强 的 个 体 进行 配对 ， 通 过 随机 交叉 父母 位 串 中 的 一 点 ， 让 每 对 父母 生出 
两 个 后 代 。 将 后 突变 应 用 到 新 的 位 串 后 ， 算 法 让 这 些 点 突变 在 其 虚拟 世 
界 中 释放 。 每 个 点 突变 都 会 反馈! 适应 度 得 分 ， 然 后 重复 这 个 过 程 。 每 一 
代 都 会 比 前 一 代 的 适应 度 更 高 ， 当 达到 理想 的 适应 度 或 者 时 间 用 尽 时 ， 


这 个 过 程 就 会 结束 。 


例如 ， 假 设 我 们 想 对 一 个 规则 进行 进化 ， 用 于 过 渡 垃 圾 邮件 ， 结 
会 怎么 样 ? 如 果 有 1 万 个 不 同 的 词 出 现在 训练 数字 中 ， 每 个 待 选 规则 会 
用 一 条 由 2 万 个 比特 组 成 的 位 串 来 表示 ， 每 两 个 比特 就 是 一 个 单词 。 与 
单词 "free”《〈 免 费 的 ) 相对 应 的 第 一 个 比特 速 是 1， 条 件 是 包含 “free” 的 
邮件 允许 与 规则 匹配 ， 与 单词 “free” 相 对 应 的 第 一 个 比特 就 是 90， 条 件 是 
包含 “free” 的 邮件 不 允许 与 规则 匹配 。 第 二 个 比特 则 相反 : 结果 就 是 1， 
条 件 是 不 包含 “free” 的 邮件 允许 与 规则 匹配 ， 否 则 结果 就 是 09， 且 不 允许 
与 规则 匹配 。 那 么 如 果 两 个 比特 都 是 1， 邮 件 不 管 是 否 包含 “free” 都 允许 
与 规则 匹配 ， 而 且 规 则 实际 上 对 那个 词 不 设 条 件 。 另 外 ， 如 果 两 个 比特 
都 是 0， 那 么 没有 邮件 会 与 规则 匹配 ， 因 为 总 有 一 个 比特 会 发 生 故 障 ， 
而 且 所 有 邮件 都 会 通过 过 滤器 。 总 的 来 说 ， 一 封 邮 件 只 有 在 其 出 现 和 不 
出 现 的 单词 模式 都 经 过 规则 人 允许 时 ， 才 能 与 规则 匹配 。 一 个 规则 的 适应 
度 就 是 规则 正确 分 类 邮件 的 百分数 。 从 一 堆 随 机 的 字符 串 开始 ， 每 个 位 
串 代 表 一 个 包含 随机 条 件 的 规划， 通过 不 断 重 复 和 改变 每 代 中 的 最 匹配 
位 串 ， 这 时 遗传 算法 就 可 以 进化 出 越 来 越 好 的 规则 。 例 如 ， 如 果 当 前 包 
含 这 些 规 则 ;如果 邮件 包含 “free”»”， 那 么 它 束 是 垃圾 邮件 ， 如 果 邮 件 包 
含 “easy”( 人 简单 的 ) 那么 它 就 是 垃圾 邮件 。 将 这 两 个 规则 交叉 可 能 会 产 
生 适 应 度 更 高 的 规则 : 如 果 邮 件 都 包含 “free” 和 “easy”， 那 么 它 束 是 垃圾 
邮件 ， 前 提 是 交叉 点 不 落 在 与 这 些 词 (free、easy) 相对 应 的 两 个 比特 
中 间 。 它 也 可 能 会 产生 这 样 的 规则 : 所 有 的 邮件 都 是 垃圾 邮件 ， 这 样 的 
规则 是 殷 弃 所 有 条 件 后 得 出 的 ， 但 它 在 下 一 代 中 不 太 可 能 产生 很 多 子规 
则 。 


既然 我 们 的 目标 是 尽 可 能 设计 出 最 好 的 垃圾 邮件 过 滤器 ， 和 老 老 实 


实 模拟 真正 的 自然 选择 相反 ， 我 们 可 以 大 大 方 方 地 作 浆 ， 方 法 就 是 通过 
改变 算法 来 适应 我 们 的 需求 。 遗 传 算法 能 够 频 紧 作 兹 的 方法 ， 束 是 允许 
有 水 不 炎 亡 的 东西 现实 生活 中 却 不 存在 ， 太 糟 了 〉 。 在 那 种 方法 中 ， 
适应 力 很 强 的 个 体 不 仅 会 在 它 那 一 代 中 为 了 繁殖 而 竞争 ， 还 会 跟 它 
的 “儿子 交 孙 子 ”“ 重 孙 ? 等 竞争 ， 只 要 在 群体 中 还 保留 有 其 中 一 个 适应 力 
最 强 的 个 体 。 相 反 ， 在 现实 世界 中 ， 适 应 能 力 强 的 个 体能 做 到 最 好 的 ， 
也 就 是 将 其 一 半 的 基因 传 给 许多 孩子 ， 而 每 个 孩子 的 适应 能 力 可 能 不 会 
那么 蝇 ， 因 为 遗传 了 父母 男 外 一 方 的 基因 。 不朽 性 避免 了 这 样 的 倒退 ， 
而 且 如 果 坟 运 ， 能 让 算法 更 快 地 达到 理想 的 适应 力 。 当 然 ， 既 然 历 史上 
最 适合 生存 的 人 类 都 是 通过 其 后 代 的 数量 来 衡量 的 ， 比 如 成 吉 思 汗 《〈 当 
今 200 个 人 中 就 有 一 个 人 是 他 的 后 代 ) 。 现 实 世 界 中 没有 永生 这 一 说 ， 
也 许 也 没 那 么 糟糕 。 


如 果 我 们 想 对 一 整套 而 不 只 是 一 个 垃圾 邮件 过 滤 规 则 进行 进化 ， 我 
们 可 以 用 含有 nx20 000 个 比特 的 字符 串 〈 每 个 规则 有 20 000 个 ， 和 之 前 
一 样 ， 假 设 数 据 里 有 1 万 个 不 同 的 词 ) 来 代表 有 n 个 规则 的 规则 集 。 有 些 
词 会 用 “00” 来 表示 ， 那 些 包 含 这 些 词 的 规则 实际 上 会 从 规则 集中 消失 ， 
因为 这 些 规则 不 会 和 任何 邮件 相 匹 配 ， 这 和 我 们 之 前 看 到 的 一 样 。 如 果 
一 封 邮件 和 规则 集中 的 任何 规则 都 匹配 ， 那 么 它 就 被 分 类 成 垃圾 邮件 ， 
否则 就 是 合法 邮件 。 我 们 还 可 以 把 适应 度 当 作 正 确 分 类 邮件 的 百分数 ， 
但 为 了 防止 过 拟 合 ， 我 们 可 能 想 从 这 个 百分数 中 扣除 与 规则 集中 和 活性 
条 件 相 称 的 处 罚 比 例 。 


我 们 甚至 可 以 做 得 更 好 ， 方 法 束 古 允许 过 渡 概 念 的 规则 进行 进化 ， 
然后 将 这 些 规则 在 运行 时 串 起 来 。 例 如 ， 我 们 可 以 对 这 样 的 规则 进行 进 
化 : 如 果 邮 件 包含 “贷款 ”一 词 ， 那 么 这 是 一 封 诈骗 邮件 ;如果 这 封 邮件 
是 诈骗 邮件 ， 那 么 它 束 是 垃圾 邮件 。 既 然 一 个 规则 的 结果 不 再 总 是 “ 垃 
圾 邮件 ?>， 这 需要 引入 规则 字符 串 中 的 额外 比特 的 信息 来 代表 它们 的 结 
朵 。 当 然 ， 计 算 机 不 会 按照 字面 引用 “诈骗 ”这 个 词 ， 它 只 会 找 出 任意 的 
比特 串 来 表示 这 个 概念 ， 但 这 对 实现 我 们 的 目标 已 经 起 到 很 好 的 作用 。 


霍 兰 德 称 类 似 这 样 的 规则 集 为 “分 类 器 系统 ”， 是 他 建立 的 机 堪 学 习 部 沙 
中 的 一 匹 “ 驮 马 ?: 演化 新 论 。 和 多 层 感 知 器 一 样 ， 分 类 器 系统 会 面临 赞 
誉 分 布 问题 一 一 过 渡 概 念 的 规则 适应 度 是 什么 ?另外 ， 霍 兰 德 设计 出 所 
谓 的 “ 桶 队 算 法 ”(bucket brigade _ algorithm ) 来 解决 这 个 问题 。 即 便 如 
此 ， 分 类 系统 和 分 层 感 知 器 相 比 ， 其 应 用 范围 要 军 得 多 。 


和 费 雪 梳理 的 简单 模型 相 比 ， 遗 传 算法 有 了 很 大 的 进步 。 达 和 尔 文 塌 
叹 上 自己 的 数学 能 力 不 行 ， 但 如 果 他 晚 生 一 个 世纪 ， 他 可 能 又 会 希望 目 己 
有 很 强 的 编程 能 力 。 的 确 ， 通 过 一 组 方程 来 充分 体现 自然 选择 很 困难 ， 
但 将 目 然 选择 表达 为 一 种 算法 又 是 另外 一 回 事 ， 而 且 这 样 还 能 阐明 许多 
其 他 丈 手 的 问题 。 为 什么 一 些 物 种 会 突然 出 现在 化 石 记录 中 ? 能 够 证 明 
这 些 物种 是 渐渐 由 早期 物种 进化 而 来 的 证 据 在 哪里 ?1972 年 ， 尼 尔 斯 
埃 和 尔 德 雷 奇 和 史 蒂 分 : 杰 伊 :证 尔 德 提 出 进化 过 程 由 一 系列 “间断 平衡 ?组 
成 ， 长 期 的 停 清 与 短暂 的 快速 变化 相互 交 蔡 ， 就 像 寒 武 纪 爆 发 那样 。 这 
个 问题 引起 激烈 的 讨论 , “间断 平衡 ?理论 的 批评 家 将 其 命名 为 “跳跃 式 
进化 ”， 而 埃 尔 德 雷 奇 和 十 尔 德 则 有 反 驶 称 ， 渐 进 主义 束 是 “ 狼 凶 式 进 
化 "。 遗 传 算法 的 经 验 会 对 支持 “跳跃 式 进化 ”的 一 方 有 利 。 如 果 你 运行 
10 万 代 遗 传 算法 ， 然 后 每 隔 1000 代 观察 群体 的 数量 ， 那 么 适应 度 与 时 间 
的 曲线 图 可 能 看 起 来 会 像 高 低 错落 的 楼 梯 ， 图 形 突然 上 升 ， 然 后 是 随 着 
时 间 慢 慢 变 长 的 平台 期 。 要 并 明白 为 什么 也 不 难 。 一 旦 算法 达到 适应 度 
的 局 部 最 大 值 〈 适 应 度 中 的 峰值 )， 算 法 会 在 这 一 点 集 很 长 时 间 ， 直 到 
茶 次 焉 运 的 变异 或 者 交 义 ， 让 处 于 坡 上 的 个 体 等 到 更 局 的 峰 项 ， 在 这 一 
点 上 该 个 体会 进行 大 量 楷 殖 ， 然 后 和 过 往 的 每 一 代 来 怜 上 这 个 坡 。 当 前 
的 峰值 越 高 ， 该 过 程 发 生前 的 那 段 时 间 就 越 长 。 当 然 ， 目 然 选择 比 这 还 
要 复杂 : 一 个 原因 就 是 ， 环 境 可 能 会 变化 ， 要 么 是 目 然 上 的 改变 ， 有 要么 
征 因为 其 他 有 机 体 上 自身 进化 了 。 另 外 ， 处 于 峰值 的 有 机 体 可 能 会 突然 发 
现 ， 对 于 再 次 进化 ， 它 面临 巨大 的 压力 。 因 此 ， 虽 然 有 用 ， 当 前 的 遗传 
算法 还 远 远 不 是 故事 的 结局 。 


探索 : 利用 困境 


我 们 应 注意 遗传 算法 和 多 层 感 知 器 的 差异 程度 。 反 辐 传 播 会 在 任何 
给 定时 间 坚 持 单一 假设 ， 而 且 这 个 假设 会 渐渐 改变 ， 直 到 其 适应 东 个 局 
部 最 优 值 。 遗 传 算法 会 在 每 一 步 中 考虑 整个 群体 的 假设 ， 而 由 于 交叉 行 
为 ， 这 些 假设 可 以 从 这 一 代 路 到 下 一 代 。 将 初始 权 值 设 为 小 的 随机 值 
后 ， 反 问 传 播 才 会 确定 继续 进行 下 去 。 相 反 ， 遗 传 算法 则 充满 随机 选 
择 : 该 使 哪些 假设 成 立 并 进行 交叉 《适应 度 更 高 的 假设 更 有 可 能 成 为 备 
选 对 象 ) ， 该 在 哪里 对 两 个 字符 串 进行 交叉 ,该 使 哪些 比特 的 信息 发 生 
突变 。 反 向 传播 为 了 预先 设 定 的 网 络 结构 掌握 权 值 ， 密集 度 更 大 的 网 络 
更 为 灵活 ， 但 掌握 起 来 也 更 困难 。 除 了 通用 式 以 外 ， 遗 传 算法 不 会 对 它 
们 即将 学 习 的 结构 进行 预先 假设 。 


因为 这 个 原因 ， 和 反 向 传播 相 比 ， 遗 传 算法 陷入 局 部 最 优 值 困境 的 
可 能 性 较 小 ， 而 且 原 则 上 也 更 有 可 能 找到 真正 新 里 的 东西 ， 但 遗传 算法 
分 析 起 来 也 要 难得 多 。 我 们 怎么 知道 ， 遗 传 算法 会 得 出 有 意义 的 结果 ， 
而 不 是 像 众所周知 的 酒鬼 那样 到 处 晃 悠 ? 问题 的 关键 在 于 要 从 构建 模块 
的 角度 去 考虑 。 字 符 串 比特 的 每 个 子 集 都 可 能 会 对 有 用 的 构造 块 进行 编 
码 ， 当 我 们 将 两 个 字符 串 进 行 交 叉 时 ， 这 些 构 造 块 会 聚集 到 一 起 ， 形 成 
一 大 块 构造 块 ， 反 过 来 这 个 大 构造 块 又 会 变 成 < 磨坊 中 的 谷物 ”。 霍 兰 德 
襄 欢 用 警方 提供 的 画像 来 解释 构造 块 的 力量 。 在 计算 机 还 没 出 现 的 年 
代 ， 和 警 局 的 拼图 师 能 够 很 快 将 嫌疑 人 的 画像 拼 在 一 起 ， 方 法 束 是 在 玉 访 
中 让 目击 者 从 画 有 典型 嘴 型 的 一 组 纸 带 中 挑选 嘴巴 ， 然 后 用 同样 的 方法 
选 出 眼睛 、 鼻 子 、 下 巴 等 。 只 有 10 个 构造 块 ， 每 个 构造 块 有 10 个 选择 ， 
这 个 系统 会 虑 及 100 亿 张 脸 ， 比 地 球 上 的 总 人 口 还 要 多 。 


在 机 需 学 习 中 ， 和 计算 机 科学 的 其 他 领域 一 样 ， 没 有 什么 比 得 到 这 
种 对 你 有 利 而 非 有 害 的 组 合 爆炸 更 好 的 东西 了 。 遗 传 算法 的 灵活 之 处 囊 
人 在于， 每 个 字符 串 都 上 暗含 指数 数量 的 构造 块 ， 被 称 为 “ 基 模 ”"， 因 此 该 研 


究 比 它 看 起 来 的 还 要 高 效 得 多 。 这 是 因为 字符 串 比 特 的 每 个 子 集 都 是 一 
个 基 模 ， 代 表 可 能 合适 的 性 能 组 合 ， 而 一 个 字符 串 有 指数 数量 的 子 集 。 
我 们 可 以 用 这 样 的 方法 来 代表 基 模 ， 也 就 是 用 “*”" 来 代替 字符 串 中 不 属 
于 该 字符 串 的 比特 。 如 110 这 个 字符 串 中 包含 以 下 基 模 : ***、***0、 
1**、*10、11*、1*0， 以 及 110。 每 选 一 个 不 同 的 比特 ， 我 们 就 得 到 一 
个 不 同 的 基 模 ， 因 为 每 个 比特 我 们 有 两 个 选择 (包含 或 不 包含 ) ， 那 么 
我 们 就 有 2 个 基 模 。 相 反 ， 在 群体 中 ， 一 个 特定 的 基 模 可 能 由 许多 不 同 
的 字符 串 来 表示 ， 而 且 每 当 这 时 ， 这 些 基 模 都 会 受到 隐 式 评估 。 假 设 在 
下 一 代 中 仍 成 立 的 概率 与 其 适应 度 成 正比 ， 那 会 怎样 ? 霍 兰 德 表 明 ， 在 
这 种 情况 下 ， 和 平均 值 相 比 ， 在 某 代 中 表示 基 模 的 字符 串 适 应 度 越 高 
一 一 我 们 能 期 望 的 一 一 在 下 一 代 中 看 到 这 些 表 示 字 符 串 的 数量 也 越 多 。 
那么 ， 虽 然 遗 传 算法 暗地里 对 字符 进行 操纵 ， 它 也 会 找到 基 模 更 大 的 可 
能 性 。 随 着 时 间 的 流逝 ， 适 应 度 更 高 的 基 模 会 主导 群体 ， 所 以 不 像 醉 汉 
那样 ， 遗 传 算法 能 找到 回 家 的 路 。 


机 器 学 习 中 最 重要 的 问题 之 一 〈 也 是 关于 生命 最 重要 的 问题 之 
一 ) ， 就 是 探索 一 利用 困境 。 如 有 果 已 经 找到 能 发 挥 作用 的 东西 ， 你 还 会 
继续 找 吗 ? 还 是 做 新 的 尝试 会 更 好 ， 知 道 这 样 可 能 会 浪费 时 间 ， 但 也 许 
会 找到 更 好 的 办 法 ? 你 想 做 牛仔 还 是 农民 ? 想 目 己 开 一 家 公司 ， 还 是 管 
理 一 家 已 经 成 立 的 公司 ? 想 用 情 专 一 ， 还 是 三 心 二 意 ? 中 年 危机 意味 着 
把 多 年 的 时 间 花 费 在 利用 茶 种 东西 之 后 ， 会 极度 淘 望 探索 新 事物 。 一 时 
冲动 之 下 ， 你 飞 到 拉 斯 韦 加 斯 ， 准 备 赌 光 你 毕生 的 积蓄 ， 变 成 百 万 富 
伍 。 你 进入 赌场 ， 然 后 面 对 一 排 老 虎 机 。 你 要 在 能 给 你 平均 回报 最 多 的 
那 台 机 器 上 玩 ， 但 你 不 知道 是 哪 台 。 那 么 你 就 得 每 台 都 试 ， 次 数 够 了 才 
能 弄 明 白 。 但 如 果 花 太 多 时 间 来 做 这 个 ， 你 束 把 钱 浪费 在 会 输 的 那 台 机 
如 上 。 相 反 ， 如 果 操 之 过 急 ， 选 了 一 台 前 几 轮 碰巧 让 你 手气 不 错 的 机 
项 ， 但 实际 上 并 不 是 让 你 获得 回报 最 多 的 一 台 ， 那 么 今 晚 剩 下 的 时 间 你 
就 会 把 钱 浪费 在 这 人 台 机 器 上 。 这 束 是 探索 一 利用 困境 。 每 次 你 玩 的 时 
候 ， 要 么 你 就 选择 重复 目前 为 止 发 现 的 最 好 的 一 把 ， 这 样 就 能 给 你 最 好 


的 回报 ， 要 么 就 试 试 其 他 几 把 ， 这 样 能 够 让 你 知道 怎样 才能 赢得 更 多 。 
利用 两 合 老虎 机 ， 霍 兰 德 表 明 最 优 策略 就 是 每 次 抛 一 个 侦 币 ， 在 这 个 货 
略 中 ， 随 着 你 进行 这 些 步 骤 ， 和 原来 的 硬币 相 比 ， 这 时 的 硬币 会 呈 指 数 
偏 倚 (如果 这 种 方法 对 你 不 起 作用 ， 别 指控 我 。 记 住 最 后 启 的 总 是 赌 

场 ) 。 一 人 台 老 虎 机 看 起 来 越 好 ， 你 就 越 应 该 玩 它 ， 但 也 别 完全 放弃 男 外 
一 台 ， 上 毕竟 妨 外 一 台 也 有 可 能 会 让 你 记得 更 多 。 


遗传 算法 就 像 一 群 财 徒 中 的 元 凶 ， 同 时 在 市 里 的 每 个 赌场 玩 老 虎 
机 。 如 果 两 个 基 模 包含 相同 的 比特 量 而 且 至 少 有 一 个 比特 的 值 不 同 ， 那 
么 这 两 个 基 模 就 会 互相 竞争 ， 例 如 *10 和 *11， 而 n 个 互相 竞争 的 基 模 就 
像 n 台 老虎 机 一 样 。 每 个 互相 苋 搜 的 基 模 集 都 是 一 个 “赌场 "， 遗 传 算法 
会 同时 弄 清楚 每 个 "赌场 ”中 会 恬 的 机 器 ， 依 据 的 是 最 优 策略 : 以 成 倍增 
长 的 频率 去 玩 看 起 来 局 得 越 来 越 多 的 机 器 。 太 联 明 了 ! 


在 《银河 系 漫 洲 指 南 》 中 ， 外 来 种 族 为 了 回答 终极 问题 ， 造 了 一 合 
巨大 的 超级 计算 机 ， 过 了 很 长 时 间 ， 计 算 机 吐出 “42” 这 个 数字 。 但 这 台 
计算 机 还 指出 ， 外 星人 不 知道 问题 是 什么 ， 所 以 他 们 又 造 了 一 台 更 大 的 
计算 机 来 和 弄 明 白 这 个 问题 是 什么 。 这 台 计 算 机 《也 称 “ 行 星 地 球 ”) 很 遗 
憾 地 在 持续 了 几 百 万 年 的 计算 ， 即 将 完成 的 几 分 钟 前 ， 被 摧毁 了 ， 因 为 
要 为 空间 高 速 公路 让 路 。 现 在 我 们 只 能 猜 那 个 问题 是 什么 了 ， 可 能 会 
征 : 你 打算 玩 哪 台 老虎 机 ? 


程序 的 适 者 生存 法 则 


在 开始 的 几 十 年 ， 遗 传 算法 的 阵营 主要 由 约 输 ' 电 兰 德 、 他 的 学 
生 、 这 些 学 生 的 学 生 组 成 。 大 约 在 1983 年 的 时 候 ， 遗 传 算法 解决 的 最 大 
问题 就 是 学 会 控制 天 然 气管 道 系统 。 不 过 ， 大 概 同样 的 时 间 段 ， 神 经 网 
络 回 归 了 ， 人 们 对 进化 计算 的 兴趣 也 开始 浓厚 起 来 。 关 于 遗传 算法 的 第 


一 次 会 议 于 1985 年 在 匹 效 堡 举行 ， 遗 传 算法 的 寒 武 纪 大 爆发 也 正在 进行 
中 。 其 中 的 一 些 变 体 尝 试 更 加 接近 地 模拟 进化 (毕竟 基本 遗传 算法 仅 对 
进化 进行 了 非常 粗略 的 模拟 〉 而 其 他 变 体 则 从 不 同方 回 模 拟 ， 利 用 让 达 
尔 文 困惑 的 计算 机 科学 概念 来 跨越 进化 论 观 点 。 


霍 兰 德 的 学 生 中 较为 出 色 的 是 约翰 : 科 扎 。1987 年 ， 他 在 意大利 参 
加 会 议 ， 飞 回 加 利 福 尼 亚 时 ， 有 一 瞬间 他 突然 醒悟 了 。 我 们 要 不 要 对 成 
熟 的 计算 机 程序 进行 进化 ， 而 不 是 发 展 相对 简单 的 东西 ， 如 “如 宁 .……. 
那么 .…..” 规 则 以 及 天 然 气 管道 控制 ? 如 果 那 是 目标 ， 为 什么 还 要 继续 
用 字符 串 来 表示 呢 ? 程序 就 像 是 一 株 子 程序 调用 树 ， 所 以 最 好 还 是 直接 
穿 过 那些 子 树 ， 而 不 是 将 它们 人 硬 徐 到 字符 串 中 ， 而 且 当 你 随机 取 点 穿 过 
这 些 子 树 时 ， 会 冒 着 将 很 好 的 程序 摧 或 的 风险 。 


例如 ， 假 设 你 想 进化 一 个 程序 ， 根 据 行星 到 太阳 的 距离 D 来 计算 该 
行星 的 运行 周期 7T。 根 据 开 普 勒 第 三 定律 ，T 是 D 的 立方 的 开平 方 ， 乘 以 
一 个 间 数 C， 该 营 数 的 值 取决 于 你 使 用 的 时 间 和 距离 单位 。 租 传 算法 应 
该 像 开 普 勒 那样 ， 通 过 奉 看 第 谷 . 布 拉 赫 关于 行星 运行 的 数据 ， 就 可 以 
发 现 这 个 规律 。 在 科 扎 的 方法 中 ，D 和 C 是 程序 树 上 的 叶子 ， 而 将 其 结 
合 起 来 的 运算 ， 比 如 乘法 运算 和 求 平 方 根 运 算 ， 就 是 内 部 节点 。 以 下 程 
序 树 能 准确 计算 出 T( 见 图 5-2)。 


科 扎 称 他 的 方法 为 “遗传 编程 >， 在 这 个 方法 中 ， 我 们 通过 随机 交换 
程序 树 的 两 棵 子 树 ， 来 对 两 棵 程序 树 进行 交叉 。 例 如 ， 将 这 两 棵 树 的 高 
亮 节 点 交叉 ， 就 会 产生 能 够 计算 出 T 的 程序 ， 这 个 程序 为 其 中 的 一 棵 子 
树 〈 见 图 5-3) 。 


图 5 -3 


我 们 可 以 测量 程序 的 适应 度 《〈 或 缺乏 适应 度 ) ， 方 法 就 是 通过 其 输 
出 值 与 训练 数据 中 的 准确 值 之 间 的 差距 来 判断 。 例 如 ， 如 果 程 序 说 地 球 
的 周期 是 300 天 ， 这 残 意味 着 要 从 其 适应 度 中 减 挥 65。 以 一 群 随机 程序 
树 作 为 开头 ， 遗 传 编 程 利 用 交叉 、 变 异 、 生 存 来 渐渐 进化 出 更 好 的 程 
序 ， 直 到 满意 为 止 。 


当然 ， 计 算 行 星 的 周期 是 一 个 很 简单 的 问题 ， 仅 仅 涉及 乘法 和 平方 
根 运算 。 一 般 情 况 下 ， 程 序 树 包 含 全 面 的 编程 结构 ， 例 如 “如 有 果 .……. 那 
么 .…..” 陈 述 、 循 坏 、 圳 归 。 更 能 解释 “遗传 编程 用 来 做 什么 ”的 例子 就 
是 ， 弄 明白 机 器 人 需要 按照 什么 顺序 来 行动 ， 以 达到 杂 个 目标 。 比 如 我 
让 办 公 机 器 人 从 走廊 的 柜子 里 拿 一 个 订 书 机 。 机 器 人 可 进行 大 量 的 动 
作 ， 例 如 ， 走 到 走廊 中 、 开 门 、 拿 起 茶 个 物品 等 。 这 些 动作 反 过 来 可 以 
由 各 种 小 动作 组 成 ， 比 如 机 器 人 的 手 同 物品 移动 ， 或 者 在 各 种 不 同 的 点 
抓 住 物品 。 每 个 行为 是 否 可 能 会 被 执行 ， 取 决 于 之 前 行为 的 结果 ， 也 可 
能 需要 被 重复 多 次 等 。 这 个 挑战 在 于 要 组 合 这 些 动 作 和 子 动作 的 正确 结 
构 ， 以 及 每 个 动作 的 参数 ， 例 如 ， 手 要 移动 多 长 的 距离 。 机 器 人 的 “ 原 
子 性 ?动作 以 及 每 个 动作 的 结合 为 开端 ， 遗 传 编 程 能 够 组 合 一 个 复杂 的 


动作 ， 并 达到 理想 目标 。 通 过 这 种 方法 ， 许 多 研究 人 员 已 经 为 机 器 人 足 
球 运动 员 制 定 了 策略 。 


对 程序 树 而 不 是 字符 串 进行 交 又 得 出 的 一 个 结果 束 是 ， 生 成 的 程序 
可 以 任意 大 ， 这 让 学 习 活 动 变 得 更 加 灵活 。 然 而 ， 整 体 的 趋势 就 是 会 变 
得 膨胀 ， 因 为 随 着 进化 持续 的 时 间 变 长 《也 称 为 < 适 者 生存 >) ， 树 也 会 
越 长 越 大 。 演 化 新 论 者 可 以 从 这 个 事实 中 获取 安慰 ; 人 类 编写 的 程序 之 
间 并 没有 什么 不 同 〈 微 软 的 Windows 系 统 : 4500 万 行 的 代码 和 计算 ) ， 
而 且 人 造 代码 也 不 会 多 许 这 样 一 种 简单 的 方法 : 将 复 森 性 处 罚 添 加 到 适 
应 度 函 数 中 就 可 以 了 。 


遗传 编程 的 第 一 次 成 功 是 在 1995 年 ， 也 就 是 成 功 设计 了 电子 电路 。 
以 一 堆 电 子 元 件 为 开端 ， 例 如 ， 唱 体 管 、 电 阻 器 、 电 容器 ， 科 扎 的 系统 
为 了 一 台 低 通 滤波 器 ， 彻 底 改造 之 前 的 一 个 专利 设计 (这 是 一 个 电路 
图 ， 其 用 途 之 一 就 是 加 强 舞 蹈 首 乐 中 的 低音 ) 。 自 那 以 后 ， 他 就 开始 对 
专利 设备 进行 改造 ， 成 打 地 改造 出 其 他 设备 。 下 一 个 里 程 碑 于 2005 年 到 
来 ， 当 时 美国 专利 及 商标 局 为 一 项 专利 颁奖 ， 该 专利 根据 遗传 学 设计 ， 
是 工矿 的 优化 系统 。 如 果 几 灵 测 试 轴 和 型 的 是 专利 审查 员 而 不 是 谈话 高 
手 ， 那 么 2005 年 1 月 25 日 ， 就 是 一 个 可 载 入 史册 的 日 子 。 


科 扎 的 自信 在 这 样 一 个 不 以 谦逊 著称 的 领域 显得 尤为 突出 。 他 将 遗 
传 编 程 当 作 一 台 会 发 明 东 西 的 机 器 ， 当 作 21 世 纪 的 硅 版 爱迪生 。 他 和 其 
他 演化 新 论 者 相信 ， 它 可 以 掌握 一 切 程序 ， 这 让 他 们 进入 了 终极 算法 的 
争夺 赛 中 。2004 年 ， 他 们 创立 一 年 一 度 的 “人 类 竞争 奖 ”(Humie 
Awards) ， 来 认可 “人 类 竞赛 "相关 的 遗传 编程 创作 。 迄 今 为 止 ， 己 经 颁 
发 39 个 奖项 。 


性 有 何 用 


尽管 他 们 取得 了 成 功 ， 也 对 诸如 渐进 主义 与 间断 平衡 的 问题 发 表 见 
解 ， 但 遗传 算法 还 有 一 个 很 大 的 谜团 没有 和 解 开 : 性 在 进化 过 程 中 所 起 的 
作用 。 演 化 新 论 者 非常 重视 交叉 行为 ， 但 其 他 学 派 的 成 员 认为 没有 必要 
如 此 麻烦 。 和 霍 主 德 没 有 哪个 理论 结果 表明 ， 交 了 义 行 为 能 起 作用 。 经 过 一 
段 时 间 ， 突 变 足 以 成 倍 地 增加 群体 中 最 适合 留 下 的 基 模 的 频率 。 而 “ 构 
造 模块 ”的 直觉 很 吸引 人 ， 但 很 快 束 会 遇 到 麻烦 ， 即 使 用 上 遗传 算法 也 
没 用 。 随 着 模块 演变 得 越 来 越 大 ， 交 义 行为 也 会 越 来 越 趋 向 于 将 这 些 模 
块 解散 。 还 有 ， 一 旦 适应 力 强 的 个 体 出 现 ， 其 后 代 很 有 可 能 快速 掌管 该 
群体 ， 并 有 可 能 将 更 好 的 基 模 挤 出 ， 这 些 基 模 受 到 整体 上 不 那么 相配 的 
个 体 的 牵 绊 。 这 有 效 减少 了 研 客 适应 度 冠 军 变化 的 工作 量 。 研 究 者 已 经 
找到 许多 方案 ， 能 够 保存 群体 中 的 多 样 性 ， 但 研究 结果 还 不 确定 。 工 程 
师 们 当然 广泛 应 用 构造 模块 ， 但 将 这 些 构造 块 结合 起 来 就 会 在 很 大 程度 
上 涉及 工程 学 的 内 容 。 这 不 是 用 旧 办 法 把 它们 丢 在 一 起 那么 简单 ， 也 不 
征明 显 的 交叉 行为 就 能 取得 成 功 的 。 


消除 性 别 对 于 演化 新 论 者 来 说 ， 就 只 剩 下 变 卉 作为 其 理论 的 推动 

力 。 如 果 群 体 的 规模 大 体 上 比 基 因 的 数量 大 ， 很 有 可 能 每 个 点 突变 都 已 
体现 在 其 中 ， 而 研究 就 变 成 仆 山 法 的 一 种 ， 尝试 所 有 可 能 的 单 步 变种 ， 
挑选 最 好 的 一 个 ， 然 后 重复 这 个 步骤 《或 者 挑选 几 个 最 好 的 变种 ， 这 种 
情况 就 被 称 为 “ 定 同 搜索 ”) 。 应 特别 指出 的 是 ， 符 号 学 派 一 直 用 这 种 方 
法 来 掌握 规则 集 ， 虽 然 他 们 不 把 它 当 成 进化 的 一 种 形式 。 为 了 避免 陷入 
局 部 最 大 值 的 陷阱 ， 扑 山 法 可 以 通过 随机 性 以 菜 个 概率 做 下 坡 移动 ) 
和 随机 重 局 (过 一 会 儿 后 ， 跳 到 随机 状态 ， 然 后 从 那儿 继续 来 得 到 加 
强 。 这 样 做 已 经 足以 找到 解决 问题 的 好 办 法 。 为 其 添加 交叉 行为 是 否 能 
证 明 额 外 计算 成 本 的 合理 性 ， 这 有 竺 回答 。 


没 人 知道 为 什么 性 别 在 自然 界 中 无 处 不 在 。 人 们 已 经 提出 几 个 理 
论 ， 但 没有 一 个 被 广泛 接受 。 这 方面 的 领先 理论 是 “红星 后 ”假说 ， 马 特 
里 德 利 在 同名 书 中 向 人 们 介绍 该 理论 。 在 《爱丽 丝 镜 中 世界 奇遇 记 》 
中 ， 红 桃 量 后 对 爱丽 丝 说 : “全 力 奔 跑 ， 这 样 你 才能 留 在 原 地 。?” 依 照 这 


个 观点 ， 有 机 体 和 寄生 虫 就 会 永远 处 在 竞赛 中 ， 而 性 可 以 保持 群体 的 多 
样 性 ， 这 样 单一 微生物 就 不 会 感染 整个 群体 了 了。 如 果 这 就 是 答案 ， 那 么 
性 就 和 机 器 学 习 不 相关 ， 这 至少 持 续 到 掌握 的 程序 因为 处 理 器 时 间 和 内 
存 而 与 计算 机 病毒 进行 抗战 “有趣 的 是 ， 丹 尼 . 希 利 斯 称 ， 有 意 将 共同 
进化 的 寄生 虫 引 入 遗传 算法 中 ， 可 以 帮 它 避免 局 部 最 大 值 困 境 ， 方 法 就 
征 逐 步 加 大 难度 ， 但 还 没有 人 继续 采用 他 的 观点 ) 。 赫 里 斯 托 斯 :由 由 
季 米 特 里 乌 和 同事 表明 ， 人 性 优化 的 不 是 适应 度 ， 而 是 他 们 所 谓 的 “ 刘 合 
度 ”: 当 与 其 他 基因 结合 时 ， 一 个 基因 表现 出 平均 水 平展 好 的 能 力 。 惑 
像 目 然 选 择 一 样 ， 当 适应 度 函 数 要 么 不 是 已 知 ， 要 么 不 是 常数 时 ， 这 个 
说 法 会 起 作用 。 但 是 在 机 器 学 习 和 最 优化 中 ， 疏 山 可 能 会 做 得 更 好 。 


遗传 编程 的 问题 不 会 就 此 结束 。 的 确 ， 虽 然 它 获得 的 成 功 可 能 不 会 
像 演化 新 论 者 希望 的 那样 和 遗传 有 很 大 联系 。 以 电路 设计 为 例 ， 这 就 是 
遗传 编程 成 功 的 典型 。 作 为 一 种 规则 ， 即 使 相对 简单 的 设计 也 需要 大 量 
的 研究 ， 而 且 也 不 知道 ， 得 出 的 结果 多 大 程度 上 归功 于 蛋 力 强攻 而 不 是 
遗传 学 智慧 。 为 了 回应 越 来 越 多 的 批评 者 ， 科 扎 1992 年 的 书 《 遗 传 编 
程 》(Genetic Programming) 包含 的 实验 表明 ， 遗 传 编程 在 布尔 电路 合 
成 问题 上 打败 了 随机 生成 备 选 项 ， 但 胜利 的 优势 很 小 。 接 着 ，1995 年 在 
加 利 福 尼 亚太 海 湖 举办 的 机 器 学 习 国际 会 议 (ICML ) 上 ， 凯 文 . 明 发 表 
了 一 篇 论文 ， 论 文 表明 疏 山 法 在 相同 的 问题 上 打败 了 遗传 编程 ， 而 且 胜 
利 的 优势 很 大 。 科 扎 和 其 他 演化 新 论 者 已 经 不 断 尝 试 在 ICML 上 发 表 论 
文 ， 因 为 这 是 该 领域 的 重要 会 议 ， 但 让 他 们 越 来 越 感到 挫败 的 是 ， 因 为 
经 验 验证 不 足 ， 他 们 不 断 遭 到 拒绝 。 论 文 被 拒 已 经 让 科 扎 感到 失落 ， 看 
到 上 关 的 文章 ， 更 让 科 扎 感到 气急 败坏 。 在 短 时 间 内 ， 他 以 ICML 的 两 栏 
格式 ， 整 理 了 一 篇 23 页 的 论文 ， 反 驶 朗 的 绪论 ， 并 控诉 ICML 评 审 员 的 
科学 不 端 行为 。 他 接着 在 会 治 的 每 个 位 置 都 放 了 一 份 论文 复印 件 。 依 据 
你 的 观点 ， 不 是 明 的 论文 ， 束 是 科 扎 的 回应 成 为 最 后 一 根 稻草 。 不 管 怎 
样 ， 太 浩 湖 事件 标志 着 演化 新 论 者 与 机 器 学 习 阵 营 中 其 他 流派 最 后 的 决 
裂 。 遗 传 编 程 员 开始 举办 自己 的 会 议 ， 这 些 会 议 与 遗传 算法 会 议 合并 ， 
成 为 “遗传 与 进化 计算 会 议 ”(GECCO) 。 对 于 演化 新 论 者 这 部 分 ， 机 


器 学 习 主 流 学 派 已 经 很 大 程度 上 把 他 们 蕊 记 。 这 古 一 个 喜 伤 的 结局 ， 但 
在 历史 上 并 不 是 第 一 次 ， 性 是 决裂 的 原因 。 


性 在 机 器 学 习 中 可 能 还 未 取得 成 功 ， 但 作为 一 种 安慰 ， 它 已 经 在 技 
术 的 发 展 中 起 到 重要 作用 。 色 情 描写 是 万 维 网 中 未 公开 承认 的 “杀手 级 
应 用 ”， 更 别 说 它 在 印刷 、 摄 影 、 视 频 领 域 就 更 受 欢 迎 了 。 振 动 磺 是 第 
一 台 手 持 电 子 设备 ， 预 示 着 一 个 世纪 之 后 手机 的 出 现 。 小 型 摩托 车 在 战 
后 的 欧洲 ， 特 别 是 在 意大利 受到 欢迎 ， 因 为 它们 能 够 让 年 轻 的 夫妇 离开 
家 人 。100 万 年 前 ， 当 直立 人 发 现 火 时 ， 其 中 的 一 个 “杀手 级 应 用 ”当然 
征 便 于 约会 。 同 样 衣 定 的 是 , “拟人 化 ?机 器 人 变 得 越 来 越 真 实 ， 其 主要 
推动 力 是 性 爱 机 器 人 行业 的 发 展 。 性 似乎 才 是 最 后 的 结局 ， 而 不 是 技术 
演化 的 手段 。 


先天 与 后 天 


演化 新 论 者 和 联结 学 派 重 要 的 共同 点 是 : 他 们 都 因为 受到 目 然 启 及 
而 设计 了 学 习 算 法 ， 不 过 后 来 分 道 扬 镀 了 。 演 化 新 论 者 天 注 的 是 学 习 染 
构 ， 对 他 们 来 次， 通过 参数 优化 来 对 演化 的 架构 进行 微调 ， 这 是 次 重要 
的 事情 。 相 反 ， 联 结 学 派 更 喜欢 用 一 个 简单 、 手 工 编写 的 结构 ， 加 上 许 
多 连接 行为 ， 然 后 让 权 值 学 习 来 完成 所 有 工作 。 这 惑 是 机 器 学 习 版 本 天 
于 先天 和 后 天 的 和 争论， 而 且 双 方 都 有 很 好 的 论据 。 


一 方面 ， 进 化 已 经 产生 许多 神奇 的 东西 ， 但 没有 什么 比 产生 你 更 神 
奇 的 了 。 有 或 者 没有 交叉 行为 ， 进 化 结构 都 是 终极 算法 的 基本 部 分 。 大 
脑 可 以 学 习 任 何 东西 ， 但 终极 算法 却 无 法 使 大 脑 进 化 。 如 果 彻 底 了 解 大 
脑 的 结构 ， 就 可 以 将 其 运用 到 计算 机 硬件 中 ， 但 我 们 还 远 远 做 不 到 这 一 
扩 。 通 过 计算 机 模拟 进化 寻求 帮助 是 一 件 容易 的 事情 。 故 外， 我 们 也 想 
对 机 霹 人 的 大 脑 、 逆 有 任意 传 感 右 的 系统 、 超 级 人 工 智 能 设备 进行 进 


化 。 如 果 有 更 好 的 东西 来 完成 这 些 任 务 ， 我 们 就 没有 理由 继续 使 用 根据 
人 类 大 脑 设 计 出 来 的 设备 。 另 一 方面 ， 进 化 的 过 程 缓慢 到 让 人 难以 阜 
受 。 一 个 有 机 体 的 一 生 只 会 产生 一 条 与 其 基因 组 相关 的 信息 : 它 的 适应 
度 ， 反 映 在 后 代 有 机 体 的 数量 上 。 这 简直 是 在 浪费 大 量 的 信息 ， 神 经 学 
习 会 通过 在 使 用 的 点 上 《可 以 这 么 次 ) 获取 信息 来 避免 这 个 问题 。 正 如 
联结 学 派 的 杰 夫 : 邓 顿 指出 的 那样 ， 基 因 组 携带 的 信息 没有 什么 优势 ， 
因为 我 们 可 以 从 感知 中 获取 这 些 信息 。 当 新 生 儿 瞻 开 眼睛 时 ， 感 知 世 界 
会 涌 入 大 脑 ， 而 大 脑 只 需 组 织 这 些 感知 。 然 而 ， 基 因 组 中 需要 确定 的 信 
奶 是 ， 完 成 这 些 组 织 工 作 的 “机 器 ”的 结构 。 


在 先天 与 后 天 之 争 中 ， 两 方 都 没有 完整 的 答 采 ， 关 键 在 于 找到 如 何 
将 两 方 结合 起 来 。 终 极 算法 既 不 是 遗传 编程 ， 也 不 是 反问 传播 ， 但 它 得 
包含 这 两 者 的 重要 部 分 : 结构 学 习 和 权 值 学 习 。 在 传统 观点 看 来 ， 先 天 
目 然 完成 第 一 部 分 (进化 大 脑 ) ， 后 天 培育 再 将 大 脑 填 满 信息 。 我 们 可 
以 在 学 习 算 法 中 重复 这 个 过 程 。 首 先 ， 学 习 网 络 的 结构 ， 利 用 爬山 法 
〈 举 个 例子 ) 来 决定 神经 元 之 间 如 何 连接 : 试看 将 每 个 可 能 的 新 连接 添 
加 到 网 络 中 ， 保 持 那 个 最 能 提高 性 能 的 连接 ， 然 后 重复 这 些 步 又 。 之 后 
利用 反 回 传播 来 学 习 连 接 权 值 ， 那 么 你 全 新 的 大 脑 马上 就 可 以 使 用 了 。 


如 今 在 上 自然 和 人 工 进化 中 ， 都 存在 一 个 很 重要 的 微妙 之 处 。 我 们 会 
为 每 个 备 选 的 结构 而 不 仅仅 是 最 终 的 那个 ， 而 一 直 学 习 权 值 ， 目 的 是 为 
了 明白 这 些 结构 在 生存 竞争 (在 自然 情况 下 〉 以 及 训练 数据 (在 人 工 条 
件 下 ) 中 的 表现 如 何 。 在 每 一 步 中 ， 我 们 想 选 择 的 结构 ， 是 在 掌握 权 值 
之 后 《而 不 是 之 前 ) ， 表 现 最 好 的 那个 。 因 此 ， 实 际 上 ， 先 天 目 然 并 不 
一 定 会 排 在 后 天 培育 之 前 。 它 们 是 互相 交 将 的， 每 轮 中 的 “ 塔 育 ? 学 习 会 
为 下 一 轮 的 “ 目 然 "学习 做 好 基础 ， 反 之 亦 然 。 因 为 后 天 的 培育 ， 先 天 也 
会 得 到 进化 。 皮 质 关 联 区 域 的 进化 在 感知 区 域 依赖 于 神经 学 习 ， 没 有 神 
经 学 习 ， 它 就 会 变 得 时 无 用 处 。 小 儿 跟 着 妈妈 到 处 走 〈 进 化 的 行为 ) ， 
但 得 首先 认识 妈妈 【〈 通 过 学 习 掌握 的 能 力 ) 。 如 果 它 们 孵化 出 来 时 第 一 
个 见 到 你 ， 就 会 跟着 你 走 ， 正 如 康 拉 德 : 洛 伦 次 明确 表明 过 的 那样 。 新 


生 大 脑 已 经 对 环境 的 特点 进行 编码 ， 但 不 是 很 明显 ， 进 化 过 程 会 将 大 脑 
优化 ， 从 预期 的 输入 信息 中 提取 那些 特点 。 同 样 的 道理 ， 在 交 丛 学 习 结 
构 和 权 值 的 算法 中 ， 每 个 新 结构 都 暗中 成 为 前 几 轮 掌握 的 权 值 的 函数 。 


在 所 有 可 能 的 基因 组 中 ， 很 少 有 基因 组 和 活性 有 机 体 对 应 。 因 此 典 
型 的 适应 度 “ 地 形 * 就 由 广 衣 的 “平原 ”组 成 ， 侦 尔 有 几 座 “尖峰 ”"， 这 让 进 
化 变 得 十 分 困难 。 如 果 你 从 堪 酝 斯 州 出 发 ， 壹 住 眼 睛 ， 你 就 不 知道 通 往 
沙 基 山脉 的 路 在 哪里 ， 那 么 偶然 撞 上 山脚 并 开始 往 上 改 之 前 ， 你 很 长 一 
段 时 间 都 是 在 晃 悠 。 但 如 果 你 把 进化 和 神经 学 习 结 合 起 来 ， 有 趣 的 事情 
就 发 生 了 。 如 果 你 在 平地 上 ， 距 离 山脚 不 是 很 远 ， 网 络 学 习 会 帮 你 到 达 
那里 ， 距 离 山脚 越 近 ， 它 越 有 可 能 帮 你 。 它 就 像 有 环视 功能 一 样 : 在 威 
奇 托 ， 它 帮 不 上 你 ， 但 在 丹佛 ， 你 会 看 到 远 处 的 落 基山 脉 ， 然 后 往 那个 
方 问 走 。 和 丹佛 现在 看 起 来 就 比 你 之 前 蒙 住 眼 时 看 起 来 的 要 适应 得 多 了 。 
净 效 应 会 将 适应 度 顶 峰 加 宽 ， 这 样 你 从 之 前 艰难 的 地 方 出 发 ， 找 到 通 往 
这 些 峰 顶 的 路 就 成 为 可 能 ， 束 像 图 5-4 中 的 A 后 。 


鲍德温 效应 


基因 组 基因 组 
图 5 -4 


在 生物 学 中 ， 这 称 作 “ 鲍 德 温 效应 ”， 该 效应 是 以 J.M: 鲍 德 温 的 名 字 
命名 的 ， 他 于 1896 年 提出 这 个 概念 。 在 鲍德温 进化 中 ， 初 次 掌握 的 行 
为 ， 之 后 会 变 成 天 生 的 本 领 。 如 果 像 狗 一 样 的 哺乳 动物 能 学 会 游泳 ， 那 
么 它们 进化 成 海豹 的 可 能 性 会 比 淹 死 的 可 能 性 更 大 。 选 择 个 体 学 习 可 以 
影响 进化 ， 不 必 依 赖 拉 马 元 学说。 杰 夫 : 辛 顿 和 史 蒂 分 : 诺 兰 论证 了 机 器 
学 习 中 的 鲍德温 效应 ， 方 法 束 是 利用 遗传 算法 来 进化 神经 网 络 结构 ， 并 


观察 到 只 有 个 体 学 习 被 允许 时 ， 适 应 度 才 会 随时 间 增 加 。 


谁 学 得 最 快 ， 谁 吏 会 恬 


进化 寻求 好 的 结构 ， 而 神经 学 习 则 填 满 这 些 结构 ， 这 样 的 结合 是 我 
们 走 回 终极 算法 最 简单 的 一 步 。 先 天 与 后 天 之 争 是 无 休止 的 波折 ， 这 个 
波折 持续 了 2500 年 ， 且 争论 会 越 来 越 激 烈 ， 对 于 熟悉 这 一 点 的 人 来 说 ， 
这 可 能 就 像 一 个 惊喜 。 然 而 ， 通 过 计算 机 的 眼睛 来 看 待 生命 能 够 将 很 多 
东西 进行 分 类 。“ 目 然 ?对 计算 机 来 说 就 是 它 运 行 的 程序 ， 而 “人 工 ? 则 是 
获取 的 数据 。“ 这 两 个 哪个 重要 ”这 样 的 问题 明显 有 扣 训 唐 。 没 有 程序 和 
数据 ， 束 没有 输出 信息 ， 比 如 也 没有 这 样 的 说 法 : 60% 的 输出 信息 由 程 
序 得 出 ， 另 外 的 40% 由 数据 得 出 。 熟 悉 机 器 学 习 ， 会 让 你 摆脱 这 种 线性 
思维 。 


另外 ， 你 也 许 想 知道 ， 都 到 这 点 了 ， 为 什么 我 们 还 没有 完成 目标 
呢 ? 如 果 我 们 把 目 然 的 两 个 主 算 法 一 一 进化 和 大 脑 一 一 结合 起 来 ， 我 们 
当然 就 可 以 这 样 问 。 遗 憾 的 是 ， 目 前 我 们 只 是 大 概 知道 自然 如 何 学 习 ， 
对 许多 应 用 来 说 已 经 足够 ,但 对 于 真实 的 东西 来 说 ， 还 只 是 灰 壹 壹 的 影 
子 。 例 如 ， 有 上 胚胎 发 育 是 生命 的 重要 组 成 部 分 ， 但 在 机 器 学 习 中 ， 束 没有 
和 胚胎 对 应 的 类 似 物 :“ 有 机 体 ” 是 基因 组 非常 简单 的 功能 ， 而 我 们 可 能 
忽视 了 重要 的 东西 。 丸 一 个 原因 束 是 ， 即 使 已 经 弄 明 日 自然 如 何 学 习 ， 
我 们 也 不 会 满足 。 一 方面 ， 这 个 过 程 太 缓慢 。 进 化 需要 数 十 亿 年 来 进行 
学 习 ， 而 大 脑 需要 一 寿 子 。 文 化 会 好 些 : 我 可 以 花 一 辈子 时 间 来 学 习 一 
本 书 ， 而 你 可 以 几 个 小 时 把 它 读 完 。 但 学 习 算法 应 该 有 在 几 分 钟 或 几 秒 
钟 内 沼 握 知识 的 能 力 。 谁 学 得 快 ， 谁 就 启 了 ， 无 论 是 加 快 进化 速度 的 饱 
德 识 效应、 语言 交流 促进 人 类 的 学 习 效 果 ， 还 是 计算 机 以 光 的 速度 发 现 
模型 。 机 需 学 习 是 地 球 上 生命 之 间 竞 争 的 最 新 篇 蔓 ， 更 加 快速 的 硬件 只 


是 等 式 的 一 边 ， 奶 一 边 是 更 加 智能 的 软件 。 


最 重要 的 是 ， 机 器 学 习 的 目标 是 尽 可 能 找到 最 好 的 学 习 算 法 ， 利 用 
一 切 可 能 的 方法 ， 而 进化 和 大 脑 不 可 能 提供 学 习 算 法 。 进 化 的 产物 有 很 
多 明显 的 错误 。 例 如 ， 哺 乳 动物 的 视觉 神经 和 视网膜 前 端 而 不 是 后 端 相 
连 ， 这 样 会 引起 不 必要 的 而 且 寞 乎 寻常 的 ) 盲点 ， 就 在 中 心 凹 劳 边 ， 
而 这 里 是 视觉 最 敏锐 的 地 方 。 活 细胞 的 分 子 生物 学 原理 非常 混乱 ， 分 子 
生物 学 家 常常 自嘲 道 ， 只 有 对 分 子 生 物 学 一 点 也 不 异 的 人 才 会 相信 智能 
设计 。 大 脑 的 构造 很 有 可 能 有 相似 的 错误 “大脑 有 许多 计算 机 没有 的 限 
制 ， 比 如 非常 有 限 的 短期 记忆 ) ， 而 且 没 有 理由 竺 在 这 些 限 制 里 。 另 
外 ， 我 们 听 谨 过 许多 这 样 的 情形 ， 人 类 似乎 坚持 做 错误 的 事情 ， 正 如 入 
尼 尔 : 卡 尼 曼 在 他 的 书 《 思 考 ， 快 与 慢 》 里 详细 说 明 的 那样 。 


与 联结 学 派 及 演化 新 论 者 相反 ， 符 写 学 派 和 贝 叶 斯 学 派 不 相信 “法 
目 然 ” 的 说 法 。 他 们 想 从 基本 原理 中 找 出 学 习 算 法 该 做 什么 ， 而 且 也 包 
括 我 们 人 类 。 例 如 ， 如 果 我 们 学 习 如 何 诊断 癌症 ， 就 说 一 名 “这 惑 是 自 
然 进行 学 习 的 方法 ， 我 们 也 照 做 ”还 不 够 。 这 其 中 有 太 多 的 利害 关系 ， 
误 兰 的 代价 就 是 生命 。 医 生 应 该 尽 可 能 用 最 安全 的 方法 来 进行 诊断 ， 这 
些 方 法 和 那些 数学 家 用 来 证 明定 理 的 方法 相似 ， 或 者 尽 可 能 接近 他 们 能 
掌控 的 水 平 〈 考 虑 到 做 到 那样 严谨 有 点 不 太 可 能 ) 。 他 们 需要 权衡 证 
据 ， 目 的 是 把 诊断 误差 降 到 最 小 ; 或 者 更 确切 地 说 ,误差 的 代价 越 大 ， 
他 们 犯错 的 可 能 性 残 越 小 例如 ， 未 能 找到 确实 存在 的 肿瘤 ， 与 诊断 出 
其 实 不 存在 的 肿瘤 相 比 ， 可 能 要 糟糕 很 多 ) 。 医 生 们 得 做 出 最 优选 择 ， 
而 不 是 表面 看 起 来 不 错 的 选择 。 


这 和 古 一 个 让 人 芭 张 的 实例 ， 贯 穿 科学 和 心理 学 的 很 多 领域 : 是 描述 
性 理论 与 规范 性 理论 之 间 的 分 歧 ， 是 “这 就 是 它 的 样子 ”与 “这 就 是 它 应 
该 成 为 的 样子 ”之 间 的 分 歧 。 然而， 符号 学 派 和 贝 叶 斯 学 派 想 指出 ， 弄 
明白 “我 们 该 怎样 学 习 ? 也 可 以 帮助 我 们 了 解 人 类 如 何 学 习 ， 因 为 这 两 者 
大 概 不 会 完全 不 相关 《 远 非 如 此 ) 。 特 别 指出 的 是 ， 对 于 生存 有 重要 意 


义 、 已 经 经 历 很 长 一 段 时 间 进 化 的 行为 应 该 就 是 最 优 的。 我 们 不 是 很 擅 
长 回答 关于 概率 的 书面 问题 ， 但 我 们 擅长 快速 选择 手 和 手臂 的 动作 来 击 
中 目标 。 许 多 心理 学 家 已 经 使 用 符号 学 或 贝 叶 斯 的 模型 来 解释 人 类 行 为 
的 方方面面 。 符 号 学 主导 了 认 知 心理 学 的 头 几 十 年 。 在 20 世 纪 八 九 十 年 
代 ， 联 结 主义 者 占 文 配 地 位 ， 但 现在 贝 叶 斯 学 者 的 数量 正在 上 升 。 


对 于 最 困难 的 问题 一 一 我 们 真 的 想 解决 但 没 能 解决 的 问题 ， 例 如 ， 
治愈 癌症 的 问题 一 一 纯粹 受到 上 自然 启发 的 方法 要 成 功 可 能 太 无 知 ， 即 使 
给 定 大 量 的 数据 也 还 是 如 此 。 原 则 上 ， 我 们 可 以 掌握 细胞 新 陈 代谢 网 络 
的 完整 模型 ， 方 法 就 是 结合 结构 研究 ， 利 用 或 者 不 利用 交叉 ， 通 过 反 回 
传播 来 进行 参数 学 习 ， 但 有 太 多 不 利 的 局 部 最 优 陷阱 。 我 们 得 利用 更 大 
块 的 数据 来 进行 推理 ， 根 据 需 要 集合 或 重新 集合 这 些 数 据 ， 然 后 利用 逆 
问 演 绎 来 填补 空缺 。 要 让 这 样 的 目标 来 引导 我 们 的 学 习 行 为 : 以 最 优 方 
法 诊断 癌症 ， 然 后 找到 治疗 癌症 的 最 佳 药 物 。 


最 优 学 习 是 贝 叶 斯 学 派 的 中 心目 标 ， 而 且 他 们 肯定 自己 已 经 找到 了 
实现 这 个 目标 的 方法 。 请 看 这 里 ..………. 
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害 人 / 八 早 
贝 叶 斯 学 铂 : 在 贝 叶 斯 教 党 里 


夜 医 降临 ， 大 教堂 的 影子 也 渐渐 变 大 。 光 线 从 教堂 的 彩色 玻璃 窗 倾 
海 而 出 ， 在 大 街 上 及 远 处 的 建筑 上 投射 出 复杂 的 公式 。 当 你 走 近 时 ， 会 
听 到 人 们 在 里 面 唱 革 歌 的 声音 。 唱 的 好 像 是 拉丁 语 ， 又 好 像 和 数学 有 
天， 但 你 耳 东 里 的 巴 别 鱼 把 它 翻 译 成 英文 : “转动 曲柄 ! 转动 曲柄 ! ” 正 
当 你 迈进 去 时 ， 壮 歌 渐 渐 转化 成 声 声 满意 的 “ 啊 ” 以 及 “后 面 ， 后 面 * 的 呢 
喃 。 你 穿 过 人 群 。 圣 坛 上 旺 立 着 一 块 巳 大 的 石碑 ， 上 面 刻 看 10 英 尺 客 字 
母 拼 写成 的 公式 : 


P(A|B)=P (A)P(B| A)/P (B) 


当 你 不 解 地 上 杂 着 这 个 公式 看 的 时 候 ， 谷 歌 眼 镜 起 作用 了 ， 它 内 了 一 
下 ， 资 :“ 贝 叶 斯 定理 。” 这 时 人 和 群 开 始 唱 :“ 再 多 些 数据 ! 再 多 些 数 
据 ! ?大量 的 祭 品 正 被 无 情 地 推 癌 和 祭坛。 突然 ， 你 意识 到 目 己 是 祭 品 中 
的 一 个 ， 但 己 经 太 晚 了 。 当 曲柄 转 到 你 上 方 时 ， 你 喊 着 :“ 不 ! 我 不 想 
变 成 数据 把 ! 放 开 我 啊 ! ” 


你 醒 来 时 浑身 冷汗 。 放 在 你 大 腿 上 的 ， 是 一 本 名 为 《终极 算法 》 的 
书 。 甩 掉 置 梦 之 后 ， 你 接着 从 中 断 的 地 方 往 下 该 。 


统治 世界 的 定理 


通 往 最 优 学 习 的 路 径 始 于 一 个 公式 ， 这 一 点 许多 人 都 听 说 过 : 贝 叶 
斯 定理 。 但 在 这 里 ， 我 们 会 以 全 新 的 眼光 来 看 符 这 个 公式 ， 而 且 会 意识 
到 ， 它 的 力量 要 比 你 根据 其 日 党 用 途 猜 测 的 要 大 得 多 。 本 质 上 ， 幢 叶 斯 
定理 不 仅仅 是 一 个 简单 的 规则 ， 当 你 收 到 新 的 论据 时 ， 它 用 来 改变 你 对 
某 个 假设 的 信任 度 : 如 果 论 据 和 假设 一 致 ， 假 设 成 立 的 概率 上 升 ， 反 之 
则 下 降 。 例 如 ， 如 果 你 碍 出 艾滋 病 病 毒 呈 阳 性 ， 你 感染 艾滋 病 的 可 能 性 
上 升 。 当 你 获得 许多 条 论据 ， 例 如 ， 多 重 测试 的 结果 时 ， 事 情 就 会 变 得 
更 有 意思 。 为 了 将 所 有 论据 结合 起 来 ， 义 免 钼 组 合 爆 炸 之 百 ， 我 们 束 得 
把 猜想 简化 。 当 我 们 同时 考虑 多 个 假设 ， 例 如 ， 一 个 病人 所 有 不 同 、 可 
能 的 诊断 时 ， 事 情 也 会 变 得 更 有 意思 。 在 合理 时 期 内 ， 根 据 病 人 的 症状 
来 计算 每 种 疾病 发 生 的 可 能 性 需要 很 大 的 智 蕊 。 一 旦 知道 如 何 来 完成 所 
有 这 些 事情 ， 我 们 残 做 好 了 学 习 贝 叶 斯 方法 的 准备 。 对 于 贝 叶 斯 学 派 来 
说 ， 学 习 “ 仅 仅 是 ? 贝 叶 斯 定理 的 另外 一 个 运用 ， 将 所 有 模型 当 作 假设 ， 
将 数据 作为 论据 : 随 看 你 看 到 的 数据 越 来 越 多 ， 有 些 模型 会 变 得 越 来 越 
有 可 能 性 ， 而 有 些 则 相反 ， 直 到 理想 的 模型 渐渐 突出 ， 成 为 最 终 的 胜 
者 。 贝 叶 斯 学 派 已 经 发 明 出 非常 灵活 的 模型 。 下 面 我 们 就 开始 来 了 解 它 
们 。 


托马斯 :中叶 斯 是 一 位 18 世 纪 的 英国 牧师 ， 当 时 他 并 没有 发 沉 目 己 
会 成 为 新 宗教 的 中 心 。 你 可 能 很 想 问 怎么 会 这 样 ， 但 注意 到 这 也 发 生 在 
耶稣 身上 后 ， 就 不 会 这 样 卫 了: 我 们 知道 ， 基 督 教 是 由 对 :保罗 开创 
的 ， 虽 然 耶稣 把 自己 看 作 犹太 教 的 顶峰 。 同 样 ， 我 们 知道 贝 叶 斯 主义 是 
由 皮 挨 和 尔 -西蒙 : 拉 普 拉 斯 创造 的 ， 他 是 比 册 叶 斯 晚 生 50 年 的 法 国人 人。 中 
叶 斯 是 第 一 个 描述 用 新 方法 来 考虑 概率 的 牧师 ， 但 把 那些 想法 变 成 定 
理 ， 并 以 贝 叶 斯 的 名 字 来 命名 的 人 ， 却 是 拉 普 拉 斯 。 


拉 普 拉 斯 是 史上 最 伟大 的 数学 家 之 一 ， 关 于 他 ， 人 们 知道 最 多 的 可 


能 不是 他 对 于 牛顿 学 说 决定 论 的 懂 悍 : 


在 任何 给 定 的 一 瞬间 ， 如 果 有 某 位 智者 能 够 洞悉 所 有 支配 自然 
界 的 力 和 组 成 自然 界 的 物体 的 相互 位 置 ， 并 且 这 位 智者 的 智慧 足以 
对 这 些 数据 进行 分 析 ， 他 就 能 用 一 个 相同 的 公式 来 概括 宇宙 中 最 大 
的 天 体 和 最 小 的 原子 的 运动 。 对 这 样 的 智者 来 说 ， 没 有 什么 是 不 确 
定 的 ， 未 来 同 过 去 一 样 都 历历 在 目 。 


这 看 起 来 有 点 讽刺 的 意味 ， 因 为 拉 普 拉 斯 也 是 概率 论 的 创始 人 之 
一 ， 而 他 认为 概率 论 仅仅 是 种 可 简化 为 计算 的 常识 。 他 对 于 概率 的 探索 
本 质 上 是 对 于 休 席 问题 的 专注 。 例 如 ， 我 们 怎么 知道 明天 太阳 会 升 起 ? 
太阳 每 天 都 会 升 起 ,今天 也 是 ， 但 没有 什么 能 够 保证 它 会 继续 逢 起。 拉 
普 拉 斯 的 回答 有 两 个 部 分 。 第 一 部 分 是 我 们 当今 所 谓 的 “无 差别 原则 ”， 
或 者 “理由 不 充分 原则 ”。 有 一 天 我 们 醒 来 ， 比 如 这 时 正 是 时 间 的 起 点 ， 
对 于 拉 普 拉 斯 来 说 则 是 大 概 5000 年 前 ， 经 历 一 个 美妙 的 下 午 之 后 ， 我 们 
看 到 太阳 下 山 了 。 它 还 会 出 现 吗 ? 我 们 还 没有 看 到 过 日 出 ， 所 以 也 就 没 
有 特殊 理由 认为 它 会 或 者 不 会 再 逢 起。 因此 我 们 应 该 考虑 两 种 情形 出 现 
的 可 能 性 相等 ， 认 为 太阳 还 会 再 升 起 的 可 能 性 是 一 半 。 但 是 ， 拉 普 拉 斯 
接着 推 新 ， 如 果 过 去 能 指导 未 来 的 一 切 ， 因 为 太阳 每 天 都 会 升 起 ， 这 应 
该 会 让 我 们 更 加 坚信 太阳 会 继续 升 起 。5000 年 过 后 ， 明 天 的 太阳 还 会 升 
起 的 概率 应 该 接近 1， 但 不 完全 是 ， 因 为 我 们 不 能 完全 肯定 。 由 这 个 思 
维 实验 ， 拉 普 拉 斯 导出 他 所 谓 的 “接续 法 则 ”， 该 法 则 用 于 估算 太阳 升 
起 mn 次 后 会 再 次 升 起 的 概率 ， 表 示 为 (n+1) / (n+2) 。 当 n=0 时 ， 这 个 
概率 为 12; 随 着 mn 增 加 ， 概 率 也 会 增加 ， 当 mn 接 近 无 穷 大 时 ， 概 率 接近 
1。 


这 个 法 则 由 一 个 更 为 通用 的 原则 推导 得 出 。 假 设 你 半夜 在 一 个 陌生 
的 星球 上 醒 来 。 虽 然 你 能 看 到 的 只 是 繁星 内 烁 的 天 空 ， 你 有 理由 相信 太 
阳 会 在 某 个 时 间 点 升 起 ， 因 为 多 数 星 球 会 自传 并 绕 着 自己 的 太阳 转 。 所 


以 你 估计 相应 的 概率 应 该 会 大 于 2 比如 说 2/3)〉 。 我 们 将 其 称 为 太阳 
会 升 起 来 的 “ 先 验 概率 "， 因 为 这 友 生 在 看 到 任何 证 据 之 前 。“ 先 验 概 

率 ” 的 基础 并 不 是 数 过 去 这 个 星球 上 太阳 升 起 的 次 数 ， 因 为 过 去 你 没有 
看 到 ;， 它 反映 的 是 对 于 将 要 发 生 的 事情 ， 你 优先 相信 的 东西 ， 这 建立 在 
你 掌握 的 宇宙 常识 之 上 。 但 现在 星星 开始 渐渐 暗淡， 所 以 你 对 于 太阳 会 
升 起 的 信心 越 来 越 强 ， 这 建立 于 你 在 地 球 上 生存 的 经 历 之 上 。 你 的 这 种 
信心 源 自 “后 验 概率 ”"， 因 为 这 个 概率 是 在 看 到 一 些 证 据 后 得 出 的 。 天 空 
开始 渐渐 变 亮 ， 后 验 概 率 又 变 得 更 大 了 。 最 终 ， 太 阳 银 色 的 大 圆 盘 出 现 
在 地 平 线 上 方 ， 而 且 可 能 正如 《和 鲁 拜 集 》 的 开篇 部 分 描写 的 那样 ， 套 中 
了 “苏丹 的 塔 尖 ”。 除 非 你 产生 约 沉 ， 现 在 太阳 是 否 会 升 起 还 不 确定 。 


问题 的 关键 是 ， 随 着 你 看 到 的 证 据 越 来 越 多 ， 后 验 概率 应 该 如 何 演 
变 ， 答 案 就 在 贝 叶 斯 定理 里 面 。 我 们 可 以 根据 因果 关系 来 考虑 这 个 问 
题 。 日 出 使 星星 渐渐 褪去 光芒 ， 天 空 变 党 ,但 后 者 更 能 证 明 歼 明 的 到 
来 ， 比 如 因为 星星 也 有 可 能 在 深夜 时 分 ， 因 为 筋 气 笼 蛙 而 渐渐 褪去 光 
储 。 所 以 看 到 天 空 变 宫 和 看 到 星星 褪去 光芒 相 比 ， 前 者 更 能 预示 太阳 升 
起 的 可 能 性 。 在 数学 符号 中 ， 我 们 说 P (日 出 | 天 裕 渐 渐 发 完 ) ， 即 天 
空 渐渐 发 亮 时 日 出 的 条 件 概率 ， 比 P (日 出 | 星星 渐渐 褪去 光芒 ) ， 即 
星星 褪去 光 芷 时 日 出 的 条 件 概 率 要 大 。 根 据 贝 叶 斯 定理 ， 给 定 茶 原因 时 
出 现 茶 结果 的 可 能 性 越 大 ， 那 么 出 现 该 结果 是 该 原因 引起 的 概率 也 会 越 
大 : 如 果 P〔 天 空 渐渐 发 亮 | 日 出 ) 比 P (星星 渐渐 褪去 光芒 | 日 出 ) 
要 大 ， 也 许 是 因为 有 些 星球 距离 太阳 足够 远 ， 那 些 星星 在 日 出 之 后 仍 会 
发 光 ， 那 么 P《〈 日 出 | 天 空 渐 渐 发 亮 ) 也 比 P (日 出 | 星星 渐渐 褪去 光 
人 


然而 ， 情 况 并 非 完 全 如 此 。 如 有 果 我 们 观察 一 个 即使 没有 该 原因 也 会 
发 生 的 结果 ， 那 么 能 肯定 的 是 ， 该 原因 的 证 据 力 不 足 。 贝 叶 斯 通过 以 下 
句子 概况 了 这 一 扣 : P (原因 | 结果 〉 随 着 P (结果 )〉 ， 即 结果 的 先 验 
概率 〈 也 就 是 在 原因 不 明 的 情况 下 结果 出 现 的 概率 ) 的 下 降 而 下 降 。 最 
终 ， 其 他 条 件 不 变 ， 一 个 原因 是 前 验 的 可 能 性 越 大 ， 它 该 成 为 后 验 的 可 


能 性 就 越 大 。 综 上 所 述 ， 贝 叶 斯 定理 认为 : 
P (原因 | 结果) =P (原因 〉 xP (结果 | 原因 ) /P (结果) 


用 A 代 蔡 原因 ， 用 B 代 蔡 结 果 ， 然 后 为 了 简洁 ， 把 乘法 符 写 删 掉 ， 
你 就 会 得 到 大 教堂 上 那个 用 10 英 尺 宽 的 字母 书写 的 公式 。 


这 仅仅 是 定理 的 一 个 表述 ， 当 然 还 不 能 作为 证 据 。 但 让 人 人 惊 诈 的 
是 ， 证 据 十 分 简单 。 我 们 可 以 用 医学 诊断 中 的 一 个 例子 来 别 明 ， 也 束 是 
贝 叶 斯 推理 的 “杀手 级 应 用 ”之 一 。 假 设 你 是 一 位 医生 ， 上 个 月 已 经 为 
100 名 病人 进行 诊断 。 其 中 的 14 名 病人 患 流 感 ，20 名 发 烧 ，11 名 既 感 冒 
也 发 烧 。 因 此 感冒 的 人 群 中 有 发 烧 的 病人 的 条 件 概率 为 1/14。 设 立 条 
件 缩小 了 我 们 正在 考虑 的 集合 ， 在 这 个 例子 中 ， 所 有 病人 的 范围 就 缩小 
为 患 有 流感 的 病人 。 在 所 有 病人 的 集合 中 ， 发 烧 的 概率 是 20/100; 而 在 
感冒 病人 的 集合 中 ， 发 烧 的 概率 则 是 11/14。 病 人 既 发 烧 又 感冒 的 概 
率 ， 是 患 感冒 病人 的 概率 乘 以 发 席 病 人 的 概率 : 


P (感冒 ， 发 烧 ) =P (感冒 ) x P (发 烧 | 感冒 ) =14/100 x11/14=11/100 
但 我 们 可 以 倒 过 来 计算 : 
P (感冒 、 发 烧 ) =P (发 烧 ) xP (感冒 | 发烧) 
因此 ， 因 为 它们 都 等 于 P《〈 感 冒 、 发 伐 ) ， 
P (发 烧 ) xP (感冒 | 发 烧 ) =P (感冒 ) xP (发 烧 | 感冒 ) 
两 边 都 除 以 P (发 烧 ) ， 你 会 得 到 
P (感冒 | 发 烧 ) =P (感冒 ) xP (发 烧 | 感冒 ) /P (发 烧 ) 


就 是 这 样 ! 这 就 是 贝 叶 斯 定理 ， 感 冒 是 原因 ， 发 烧 是 结果 。 


事实 证 明 ， 人 类 并 不 是 很 擅长 贝 叶 斯 推理 ， 至 少 涉及 文字 推理 的 时 
候 是 这 样 的 。 问 题 在 于 我 们 倾 癌 于 忽略 原因 的 先 验 概 率 。 如 果 你 的 艾滋 
病 病 毒 检 剖 呈 阳 性 ， 而 检测 的 假 阳 性 只 有 19%， 你 会 党 得 荡 眉 吗 ? 乍 一 
看 ， 这 时 你 患 有 艾滋 病 的 概率 是 99%。 呀 ! 可 是 让 我 们 冷静 一 下 ， 一 步 
一 步 用 贝 叶 斯 定理 来 推导 这 个 概率 : 


P (HIV | 阳性 ) =P CHIV) xP (阳性 | HIV) 


P (HIV) 是 HIV 在 普通 人 群 中 的 感染 流行 率 ， 在 美国 这 个 概率 约 为 
0.3%。P《〈 阳 性 ) 是 化 验 结 果 显 示 你 是 否 患 有 艾滋 的 概率 ， 我 们 假设 这 
个 概率 是 1%。 那 么 P (HIV | 阳性 ) =0.003x0.99/0.01=0.297。 这 和 0.99 
有 很 大 的 差别 ! 因为 HIV 在 普通 人 群 中 较为 少见 。 化 验 结果 为 阳性 ， 这 
样 你 感染 艾滋 病 的 概率 会 增加 两 个 数量 级 ， 但 这 些 概 率 还 是 低 于 50%。 
如 果 你 的 化 验 结果 为 HIV 阳 性 ， 接 下 来 的 准确 做 法 是 保持 冷静 ， 然 后 做 
另外 更 加 确切 的 检查 。 检 查 结果 很 有 可 能 是 你 没事 。 


贝 叶 斯 定理 之 所 以 有 用 ， 是 因为 通常 给 定 原 因 后 ， 我 们 就 会 知道 结 
果 ， 但 我 们 想 知 道 的 是 已 知 结果 ， 如 何 找 出 原因 。 例 如 ， 我 们 知道 感冒 
病人 发 烧 的 概率 ， 但 真正 想 知 道 的 是 ， 发 烧 病 人 患 感冒 的 概率 是 多 少 。 
贝 叶 斯 定理 让 我 们 由 原因 推出 结果 ， 又 由 线 果 知道 原因 ， 但 其 重要 性 远 
非 如 此 。 对 于 贝 叶 斯 定理 的 信仰 者 来 说 ， 这 个 伪装 起 来 的 公 陈 其 实 是 机 
器 学 习 中 的 F=ma 等 式 ， 很 多 结论 和 应 用 都 是 在 这 个 等 式 的 基础 上 得 出 
的 。 而 且 无 论 终极 算法 是 什么 ， 它 肯定 “仅仅 ”是 贝 叶 斯 定理 的 一 个 算法 
应 用 。 我 之 所 以 给 “仅仅 ?加 了 双 引 号 ， 古 因为 对 于 几乎 所 有 简单 的 问题 
来 说 ， 在 计算 机 上 面 应 用 贝 叶 斯 定理 非常 困难 ， 接 下 来 ， 我 们 就 会 知道 
原因 。 


贝 叶 斯 定理 作为 统计 学 和 机 器 学 习 的 基础 ， 受 到 计算 难题 和 巨大 争 
论 的 困扰 。 你 想 知 道 原因 也 情 有 可 原 : 这 不 就 是 我 们 之 前 在 感冒 的 例子 
中 看 到 的 那样 ， 贝 叶 斯 定理 是 由 条 件 概率 概念 得 出 的 直接 结果 吗 ? 的 
确 ， 公 式 本 里 没 有 什么 问题 。 和 争议 在 于 相信 贝 叶 斯 定理 的 人 怎么 知道 推 


导 该 定理 的 各 个 概率 ， 以 及 那些 概率 的 含义 是 什么 。 对 于 多 数 统计 学 家 
来 说 ,估算 概率 的 唯一 有 效 方法 束 是 计算 相应 事件 发 生 的 频 京 。 例 如 ， 
感冒 的 概率 是 0.2， 因 为 被 观察 的 100 名 病人 中 ， 有 20 名 发 烧 了 。 这 是 “ 频 
率 论 ?对 于 概率 的 解释 ， 统 计 学 中 占据 主导 地 位 的 学 派 就 是 由 此 来 命名 
的 。 但 请 注意 ， 在 日 出 的 例子 以 及 拉 普 拉 斯 的 无 差别 原则 中 ， 我 们 会 做 
点 不 一 样 的 事 : 千方百计 找到 方法 算出 概率 。 到 底 有 什么 正当 的 理由 ， 
能 够 假设 太阳 升 起 的 概率 是 12、2/3， 或 者 别 的 呢 ? 贝 叶 斯 学 派 的 回答 
是 : 概率 并 非 频 率 ， 而 是 一 种 主观 程度 上 的 信任 。 因 此 ， 用 概率 来 做 什 
么 由 你 决定 ， 而 贝 叶 斯 推理 让 你 做 的 事 吏 是 : 通过 新 证 据 来 修正 你 之 前 
相信 的 东西 ， 得 到 后 来 相信 的 东西 (也 被 人 们 称 为 “转动 贝 叶 斯 手 

柄 ”) 。 贝 叶 斯 学 派对 此 观点 的 忠实 近乎 度 减 ， 足 以 经 得 住 200 年 的 攻击 
和 计算 。 计 算 机 已 经 强大 到 足以 做 贝 叶 斯 推理 ， 且 在 大 数据 的 辅助 下 ， 
它们 开始 占据 上 风 。 


所 有 模型 都 是 错 的 ， 但 有 些 却 有 用 


实际 上 ， 医 生 不 会 仅 攒 友 烧 就 断定 病人 感冒 了 ， 他 会 考虑 所 有 的 症 
状 ， 包括 病 人 是 否 咳 嗽 、 喉 哎 痛 、 流 蜡 泥 、 头 疼 、 友 冷 等 。 所 以 我 们 真 
正 要 算 的 是 P《〈 感 冒 | 咳嗽 、 喉 吡 痛 、 流 鼻 阐 、 头 疼 、 发 冷 ……) 。 通 
过 贝 叶 斯 定理 ， 我 们 知道 这 和 P 《咳嗽 、 喉 哎 痛 、 流 曙 涕 、 头 疼 、 发 
a | 感冒 ) 成 正比 。 但 现在 ， 我 们 遇 到 一 个 问题 : 我 们 该 如 何 估算 
这 个 概率 ? 如 果 每 个 症状 就 是 一 个 布尔 变量 〈 你 要 么 有 这 个 症状 ， 要 人 么 
没有 ) ， 医 生 要 考虑 n 个 症状 ， 那 么 病人 就 可 能 有 2n 种 症状 的 组 合 。 假 
设 我 们 有 20 种 症状 以 及 1 万 个 病人 的 信息 数据 库 ， 那 么 我 们 现在 看 到 的 
仅仅 是 近 100 万 种 可 能 组 合 中 的 一 小 部 分 。 更 糟 的 是 ， 为 了 准确 估算 汞 
个 特定 组 合 出 现 的 概率 ， 我 们 对 该 组 合 的 观察 次 数 应 至 少 为 几 十 次 ， 这 
意味 着 数据 库 需 包含 几 生 万 个 病人 的 信息 。 再 另外 增加 10 种 症状 ， 我 们 


需要 病人 的 数量 就 会 超过 地 球 上 的 人 口 数 。 如 果 有 100 种 症状 ， 即 使 我 
们 能 魔法 般 地 得 到 数据 ， 那 么 世上 所 有 的 人 硬盘 也 没有 足够 的 空间 来 存储 
所 有 的 概率 。 而 且 如 果 病 人 来 到 医院 ， 病 人 症状 的 组 合 我 们 从 未 过 到 

过 ， 那 么 我 们 就 不 知 该 如 何 对 其 进行 诊断 。 这 时 我 们 就 与 宿敌 再 次 交 

锋 : 组 合 爆炸 问题 。 


因此 ， 我 们 就 照 痢 生活 中 第 发 生 的 那样 做 : 受 协 。 我 们 做 简化 的 假 
设 来 减少 概率 的 数量 ， 这 些 概率 的 数量 由 我 们 估算 而 来 ， 且 我 们 可 以 掌 
控 。 一 个 很 简单 且 受 人 退兵 的 假设 就 是 ， 在 给 定 原因 的 情况 下 ， 所 有 的 
结果 都 相互 独立 。 例 如 ， 假 如 我 们 知道 你 感冒 了 ， 发 烧 并 不 会 改变 你 也 
咳嗽 的 可 能 性 。 从 数学 的 角度 讲 ， 也 就 是 说 ，P (发烧 、 咳 嗽 | 感冒 ) 
仅 相 当 于 P (发 烧 | 感冒 ) xP《 咳 嗽 | 感冒 ) 。 你 瞧 : 这 些 概率 中 的 每 
一 个 都 可 以 通过 少量 次 数 的 观察 得 到 。 其 实 ， 在 前 文 ， 我 们 就 这 样 得 到 
过 病人 发 烧 的 概率 ， 且 咳嗽 和 其 他 症状 的 概率 的 算法 也 并 无 二 致 。 那 么 
我 们 需要 观察 的 次 数 束 不 会 随 着 症状 数 的 增多 而 呈 指 数 坪 长 了 ， 实 际 
上 ， 观 察 次 数 不 会 再 增长 。 


请 注意 : 我 们 只 是 说 你 在 感冒 的 前 提 下 ， 发 烧 和 咳嗽 是 相互 独立 
的 ， 但 并 不 是 所 有 情况 都 如 此 。 很 明显 ， 如 果 我 们 不 知道 你 有 没有 感 
冒 ， 那 么 有 发烧 和 咳嗽 则 有 很 大 关系 ， 因 为 如 果 你 已 经 发 烧 了 ， 那 你 很 有 
可 能 会 咳嗽 。 忆 《发 谋 、 咳 嗽 ) 不 等 于 P《〈 发 烧 ) xP 咳嗽 ) 。 我 们 现 
在 次 的 是 ， 如 采 我 们 知 庆 你 感冒 了 ， 那 么 知道 你 是 人 否 发 烧 ， 并 不 会 让 我 
们 更 容易 知道 你 是 人 否 会 咳嗽 。 同 样 ， 如 果 你 不 知道 太阳 要 升 起 来 了 ， 而 
且 你 看 到 星星 渐 暗 了 ， 那 么 你 融 更 加 肯定 天 空 会 变 亮 ， 但 如 果 你 知道 太 
阳 即 将 升 起 ， 那 么 看 到 星星 渐 瞳 就 没有 什么 影响 了 。 


请 再 次 注意 ;多亏 贝 叶 斯 定理 ， 我 们 才 掌 握 这 个 守门 。 如 果 我 们 想 
直接 估算 P (感冒 | 发烧、 咳嗽 等 ) ， 假 如 不 利用 定理 先 将 其 转化 
成 P (发 烧 、 咳 嗽 等 | 感冒 ) ， 那 么 我 们 就 还 需要 指数 数量 的 概率 ， 每 
个 组 合 的 症状 以 及 感冒 或 非 感冒 都 有 一 个 概率 。 


如 果 学 习 算 法 利用 贝 叶 斯 定理 ， 且 给 定 原因 时 ， 假 定 结果 相互 独 
并 ， 那 么 该 学 习 算 法 被 称 为 “朴素 贝 叶 斯 分 类 器 *。 因 为 这 是 一 个 很 村 系 
的 猜想 。 实 际 上 ， 人 发烧 会 增加 咳嗽 的 可 能 性 ， 即 使 你 知道 自己 感冒 了 ， 
因为 〈 举 个 例子 ) 发 烧 会 让 你 得 重 感冒 的 可 能 性 增 大 。 但 机 器 学 习 就 是 
会 做 错误 猜想 的 技术 ， 而 它 又 能 倪 幸 逃脱 。 正 如 统计 学 家 乔治 : 博 死期 
说 的 一 句 很 有 名 的 话 那样 :“ 所 有 的 模型 都 是 错 的 ， 但 有 些 却 有 用 。? 虽 
然 一 个 模型 过 于 简化 ， 但 你 有 足够 的 数据 用 来 估算 那 就 比 没有 数据 的 完 
美 模型 要 好 。 令 人 诈 异 的 是 ， 有 些 模型 错误 百出 ， 同 时 又 很 有 用 。 经 济 
学 家 弥 尔 顿 : 弗 里 德 曼 甚至 在 一 篇 很 有 影响 力 的 文革 中 提出 ， 最 有 说 服 
力 的 理论 往往 受到 最 大 程度 的 简化 ， 只 要 这 些 理论 所 做 的 预测 是 准确 
的 ， 因 为 它们 用 最 简洁 的 方法 解释 最 复 森 的 问题 。 这 对 于 我 来 说 束 像 极 
远 处 的 一 座 桥 ， 但 它 阐 明 : 与 爱 因 斯 坦 的 名 言 相 悖 ， 人 至少 可 以 这 么 说 ， 
科学 往往 通过 尺 可 能 简化 事物 来 取得 进步 。 


没有 人 能 肯定 是 谁 发 明了 村 系 贝 叶 斯 算法 。 在 1973 年 的 一 本 模式 识 
列 教科 书 中 ， 它 被 提 到 过 ， 当 时 并 未 注 明 出 处 ， 但 它 真 正 流行 起 来 是 在 
20 世 纪 90 年 代 ， 那 时 研究 人 员 惊 喜 地 发 现 ， 它 很 多 时 候 比 许多 更 为 复杂 
的 学 习 算 法 还 要 准确 。 那 时 我 还 是 一 名 研究 生 ， 而 当 我 终于 决定 把 朴 系 
贝 叶 斯 法 纳入 我 的 实验 时 ， 我 震惊 地 发 现 自 己 很 兽 运 ， 除 了 那个 我 运用 
到 论文 中 的 算法 ， 它 比 所 有 我 用 来 与 之 对 比 的 算法 都 要 有 用 ， 人 否则 我 可 
能 也 不 会 在 这 里 了 。 


朴素 贝 叶 斯 法 如 今 应 用 得 很 广泛 。 例 如 ， 它 是 许多 垃圾 邮件 过 滤器 
的 基础 。 而 这 一 切 开 始 于 大 卫 : 赫 殉 曼 (一 位 单 越 的 贝 叶 斯 研究 员 ， 同 
时 也 是 一 名 医生 ) ， 想 到 将 垃圾 邮件 当 作 疾病 ， 疾 病 的 症状 就 相当 于 邮 
件 中 的 文字 : “伟哥 ”是 一 种 症状 , “免费 ?也 是 ， 但 你 最 好 朋友 的 姓 可 能 
会 暗示 这 是 一 封 合法 邮件 。 那 么 我 们 就 可 以 利用 朴 系 贝 叶 斯 法 来 将 邮件 
分 为 垃圾 邮件 和 非 垃圾 邮件 了 ， 只 要 垃圾 邮件 制造 者 通过 随机 选 词 来 生 
成 邮件 。 当 然 ， 这 是 一 个 欧 请 的 假设 : 只 有 当 句 子 没有 句法 和 和 内容 时 ， 
它 才 正确 。 但 那个 夏天 ， 迈 赫 兰 : 沙 哈 和 一 位 斯 坦 福 大 学 的 毕业 生 在 微 


软 研 完 院 实习 时 ， 曾 对 该 假设 进行 过 符 试 ， 且 效 打 很 好 。 当 比尔 : 兰 次 
问 赫 死 曼 怎 会 如 此 时 ， 他 指出 为 了 识别 垃圾 邮件 ， 你 不 必 理 解 信息 的 细 
节 ， 只 要 通过 邮件 包含 的 词语 来 获得 邮件 的 主旨 就 可 以 了 。 


一 个 基本 的 搜索 引擎 也 会 利用 与 朴素 贝 叶 斯 法 极 相似 的 算法 来 决定 
显示 哪些 页 面 来 回应 你 的 搜索 。 主 要 的 区 别 在 于 : 它 会 预测 相关 或 非 相 
天 ， 而 不 是 垃圾 邮件 或 非 垃圾 邮件 。 运 用 朴素 贝 叶 斯 法 来 解决 预测 问题 
的 例子 几乎 数不胜数 。 彼 得 :诺尔 维 格 (谷歌 的 研究 主任 ) 一 度 告诉 
我 ， 这 是 谷歌 应 用 最 为 广泛 的 算法 ， 谷 歌 的 机 融 学 习 在 每 个 角落 都 利用 
了 该 算法 的 功能 。 为 什么 朴 系 贝 叶 斯 法 会 在 谷歌 员工 中 流行 起 来 ?这 个 
问题 不 难 回答 。 除 了 惊人 的 准确 度 ， 它 的 测量 能 力也 很 强 。 学 习 杆 率 贝 
叶 斯 分 类 器 的 原理 ， 也 仅 相 当 于 数 出 每 个 属性 与 每 个 类 别 出 现 的 次 数 ， 
化 的 时 间 不 比 从 硬盘 读 取 数 据 的 时 间 长 。 


可 以 半 开 玩笑 地 说 ， 你 甚至 可 以 比 谷歌 员工 更 大 范围 地 利用 朴素 贝 
叶 斯 法 : 对 整个 宇宙 进行 模拟 。 的 确 ， 如 果 你 相信 全 能 的 上 第 ， 那 么 你 
可 以 将 宇宙 模拟 成 一 个 巨大 的 朴素 贝 叶 斯 法 分 布点 ， 这 里 发 生 的 每 件 事 
都 是 在 上 禹 的 意愿 下 独立 发 生 的 。 当 然 ， 值 得 注意 的 是 ， 我 们 不 知道 上 
帝 在 想 什么， 但 在 第 八 章 我 们 会 分 机 ， 如 何在 即使 不 知道 例子 类 别 的 情 
况 下 ， 营 握 朴 系 贝 叶 斯 模型 。 


起 初 看 起 来 可 能 不 是 这 样 ， 但 朴 聂 贝 叶 斯 法 与 感知 器 算法 密切 相 
天 。 感 知 喜 增加 权 值 ， 而 朴素 贝 叶 斯 法 则 增加 概率 ， 但 如 果 你 选中 一 种 
算法 ， 后 者 会 转化 成 前 者 。 两 者 部 可 以 概括 成 “< 如果 .….…. 那 么 .…...” 的 简 
单 规则 ， 这 样 每 个 先例 都 会 多 多 少 少 体现 在 结果 中 ， 而 不 是 在 结果 
中 “全 有 或 全 无 ”。 这 仅仅 是 暗 指 主 算 法 的 学 习 算法 中 关联 较为 深入 的 例 
子 。 你 也 许 并 没有 有 意识 地 去 了 解 贝 叶 斯 定理 那么， 你 现在 意识 到 
了 ) ， 但 在 茶 种 程度 上 ， 你 大 脑 中 数 百 亿 神 经 元 中 的 每 一 个 都 是 贝 叶 斯 
定理 的 微小 实例 。 


在 看 新 闻 时 ， 杆 系 贝 叶 斯 法 是 学 习 算 法 可 以 利用 的 民 好 概念 模型 : 


它 可 以 捕获 输入 与 输出 之 间 两 两 相关 的 关系 ， 这 对 于 理解 将 学 习 算 法 引 
用 到 新 事件 中 很 有 必要 。 但 是 机 器 学 习 也 不 仅仅 和 两 两 相关 关系 有 关 ， 
当然 ， 正 如 大 脑 不 仅仅 包含 一 个 神经 元 一 样 。 当 我 们 寻找 更 为 复杂 的 模 
型 时 ， 真 正 的 行动 才刚 刚 开 始 。 


从 《无 金 ' 奥 涅 金 》 到 Siri 


1913 年 第 一 次 世界 大 战 前 夕 ， 俄 国 数学 家 安 德 烈 ' 马 尔 可 夫 发 表 了 
一 篇 文章 ， 将 所 有 事情 的 概率 运用 到 诗歌 当中 。 诗 中 ， 他 模仿 俄国 文学 
的 经 典 ， 普 希 金 的 《 尤 金 : 奥 涅 金 》， 运 用 了 当今 我 们 所 说 的 “马尔 可 夫 
链 ”。 他 没有 假定 每 个 字母 都 是 随机 产生 的 ， 与 剩 下 的 坚 无 和 关联， 而 是 
最 低 限 度 引 入 了 顺序 结构 : 他 让 每 个 字母 出 现 的 概率 由 在 它 之 前 、 与 它 
紧 接 的 字母 来 决定 。 他 表示 ， 举 个 例子 ， 元 音 和 辅音 常常 会 区 蔡 出 现 ， 
所 以 如 果 你 看 到 一 个 辅音 ， 那 么 下 一 个 字母 〈 忽 略 发 音 和 空格 ) 很 有 可 
能 就 是 元 首 ， 但 如 果 字 和 母 之 间 互 相 独 立 ， 出 现 元 音 的 可 能 性 就 不 会 那么 
大 。 这 可 能 看 起 来 微不足道 ， 但 在 计算 机 发 明 出 来 之 前 的 年 代 ， 这 需要 
化 费 数 小 时 来 数 文字 ， 而 马尔 可 夫 的 观点 在 当时 则 很 新 颖 。 如 果 元 音 i 
是 一 个 布尔 型 变量 ，《 尤 金 : 奥 涅 金 》 的 第 i 个 字母 是 元 首 ， 则 该 变量 为 
真 ， 如 果 它 是 一 个 辅音 则 为 假 ， 那 么 我 们 用 图 6-1 这 样 的 连锁 图 来 表示 
马尔 可 夫 模 型 ， 两 个 节点 之 间 的 稍 头 表 示 相 应 变量 之 间 的 直接 依赖 关 
系 : 


图 6 -1 


马尔 可 夫 假 设 〈 假 设 错误 但 有 用 ) 文中 每 个 位 置 的 概率 都 是 一 样 
的 。 因 此 我 们 只 需 估 算 三 个 概率 : 忆 〈 元 音 1= 真 ) ，P 元 音 it1= 真 | 元 


首 计 真 )， 且 P (元 首 i+1= 真 | 元 音 二 假 [因为 概率 相 加 等 于 1， 由 此 我 
们 可 以 马上 得 出 P (元 音 1= 假 ) 等 ] 。 与 朴素 贝 叶 斯 法 一 样 ， 我 们 可 以 
随心 所 和 欲 拥有 许多 变量 ， 而 不 用 估算 可 能 会 抵达 上 限 的 概率 的 数量 ， 但 
现在 变量 之 间 实 际 上 会 相互 依赖 。 


如 采 我 们 测量 的 不 仅仅 是 元 音 对 辅音 的 概率 ， 还 有 字母 顺序 遵循 字 
母 表 顺 序 的 概率 ， 利 用 与 《 尤 金 ' 奥 涅 金 》 一 样 的 统计 数据 ， 我 们 可 以 
很 愉快 地 生成 新 的 文本 : 选择 第 一 个 字母 ， 然 后 在 第 一 个 字母 的 基础 上 
选择 第 二 个 字母 ， 以 此 类 推 。 当 然 结果 是 一 堆 没 有 意义 的 数据 ， 但 如 果 
我 们 让 每 个 字母 都 依照 之 前 的 几 个 字母 而 不 止 一 个 字母 ， 这 个 过 程 就 开 
始 听 起 来 更 像 一 个 酒鬼 的 狐 话 ， 虽 然 从 整体 上 看 没有 意义 ， 但 从 局 部 上 
看 却 很 连贯 。 虽 然 这 还 不 足以 通过 图 灵 测 试 ， 但 像 这 样 的 模型 是 机 器 翻 
译 系 统 的 关键 组 成 部 分 ， 比 如 谷歌 翻译 可 以 让 你 看 到 整 版 的 英文 页 面 
(或 者 几乎 整 版 ) ， 不 管 原 页 面 的 语言 是 什么 。 


源 于 谷歌 的 页 面 排名 ， 本 号 就 是 一 条 与 尔 可 夫 链 。 拉 里 : 佩 奇 认 
为 ， 含 有 许多 链接 的 页 面 ， 可 能 会 比 只 含 儿 个 的 要 重要 ， 而 且 来 自重 要 
页 面 的 链接 本 映 也 更 有 价值 。 这 样 束 形 成 了 一 种 无 限 倒 退 ， 但 我 们 可 以 
利用 马尔 可 夫 链 来 掌控 这 种 倒退 。 想 象 一 下 ， 一 个 页 面 搜索 用 户 通过 随 
机 点 击 链 接 来 从 这 个 页 面 跳 到 为 外 一 个 页 面 :这 时 马尔 可 夫 链 的 状态 残 
不 是 文字 而 是 页 面 了 ， 这 样 问题 就 变 得 更 为 复 洒 ， 但 数学 原理 是 一 样 
的 。 那 么 每 个 页 面 的 得 分 就 是 搜索 用 尸 花 在 该 页 面 上 的 时 间 ， 或 者 等 于 
他 徘徊 很 久 后 停留 在 该 页 面 上 的 概率 。 


马尔 可 夫 链 无 处 不 在 ， 而 且 是 人 们 研 完 最 多 的 数学 话题 ， 但 它 仍 是 
受到 很 大 限制 的 概率 模型 。 我 们 可 以 用 图 6-2 中 的 模型 来 进一步 探讨 这 


个 问题 。 


图 6-2 


与 乙 前 一 样 ， 这 些 状态 组 成 一 条 马尔 可 夫 链 ， 但 我 们 看 不 到 它们 ， 
得 从 观察 中 将 它们 推导 出 来 。 人 们 称 其 为 隐藏 的 马尔 可 夫 模 型 ， 或 者 简 
称 为 HMM 〈 有 点 误导 人 ， 因 为 被 隐藏 的 是 状态 ， 而 不 是 模型 ) 。HMM 
和 Siri 一 样 ， 处 于 语音 识别 系统 的 中 心 。 在 语音 识别 过 程 中 ， 隐 藏 的 状 
态 是 书面 形式 的 单词 ， 而 观察 值 则 是 对 Siri 说 的 声音 ， 而 目标 则 是 从 声 
音 中 推断 出 单词 。 模 型 有 两 个 组 成 部 分 : 给 定 当 前 单词 的 情况 下 ， 下 一 
个 单词 出 现 的 概率 和 在 马尔 可 夫 链 中 的 一 样 ;在 单词 被 说 出 来 的 情况 
下 ， 听 到 各 种 声音 的 概率 《到 底 如 何 进行 推导 ， 这 是 一 个 有 趣 的 问题 ， 
下 面 我 们 会 来 讨论 这 个 问题 ) 。 


6- 


除了 Siri， 你 每 次 用 手机 来 通话 时 都 会 用 到 一 个 HMM。 这 是 因为 你 
的 词语 在 空气 中 以 位 流 的 形式 发 送 ， 而 数位 在 发 送 过 程 中 会 受到 损坏 。 
这 个 HMM 接 着 会 从 接收 到 的 数位 中 《观察 值 ) 找到 预期 的 那个 〈 隐 茂 
状态 ) ， 这 是 HMM 应 该 能 做 得 到 的 ， 只 要 受 损 的 数位 不 是 很 多 。 


HMM 还 是 计算 生物 学 家 最 为 喜爱 的 工具 。 一 个 重 白 质 分 子 是 一 个 
氨基 酸 序 列 ， 而 DNA 则 是 一 个 碱 基 序列 。 举 个 例子 ， 如 果 我 们 想 预 测 一 
个 蛋白 质 分 子 怎样 才能 形成 三 维 形状 ， 我 们 可 以 把 氨基 酸 当 作 观察 值 ， 
把 每 个 点 的 裙 皱 类 型 当 作 隐藏 状态 。 同 样 ， 我 们 可 以 用 一 个 HMM 来 确 
定 DNA 中 基因 开始 转录 的 地 点 ， 还 可 以 确定 其 他 许多 属性 。 


如 采 状 态 和 观 穴 值 都 是 连续 而 非 离散 变量 ， 那 么 HMM 就 变 成 人 们 


熟知 的 卡尔 曼 渡 波 事 。 经 济 学 家 利用 卡尔 曼 滤 波 右 来 从 数量 的 时 间 序 列 
中 消除 元 余 ， 比 如 GDP【〈 国 内 生产 总 值 ) 、 通 货 膀 胀 、 失 业 率 。“ 真 正 
的 "GDP 值 属于 隐藏 的 状态 ;在 每 一 个 时 间 点 上 ， 真 值 应 该 与 观察 值 相 
似 ， 同 时 也 与 之 前 的 真 值 相 似 ， 因 为 经 济 很 少 会 突然 跳跃 式 增长 。 卡 尔 
受 涯 波 器 会 区 蔡 使 用 这 两 者 ， 同 时 会 生成 流畅 的 曲线 ， 仍 与 观察 值 一 
致 。 当 导弹 巡航 到 目的 地 时 ， 束 是 卡尔 曼 滤 波 占 使 它 保 持 在 轨道 上 。 没 
有 卡尔 曼 滤 波 器 ， 人 类 束 无 法 登 上 月 球 。 


所 有 东西 都 有 关联 ， 但 不 是 直接 关联 


HMM 有 助 于 模拟 所 有 种 类 的 序列 ， 但 它们 远 远 不 如 符号 学 派 的 “如 
果 ..….... 那 么 ..…....” 规 则 灵活 ， 在 这 个 规则 当中 ， 任 何事 都 可 以 以 前 提 的 
形式 出 现 ， 而 在 任意 下 游 规 则 中 ， 一 条 规则 的 结果 可 以 反 过 来 当 作 前 
提 。 然 而 ， 如 果 我 们 允许 如 此 随意 的 结构 在 实践 中 存在 ， 那 么 需要 掌握 
的 概率 数量 将 会 呈 爆 发 式 增长 。 很 长 一 段 时 间 ， 没 有 人 知道 该 如 何 打破 
这 个 循环 ， 而 研究 者 们 只 能 求助 于 特别 方案 ， 比 如 将 置信 度 估 算 与 规则 
挂钩 ， 并 以 某 种 方式 将 它们 联合 起 来 。 如 果 A 以 0.8 的 置信 度 蜡 指 B， 而 
B 以 0.7 的 置信 度 瞳 指 C， 那 么 也 许 A 暗 指 C 的 置信 度 则 为 0.8x0.7。 


这 些 方 案 的 问题 在 于 ， 它 们 可 能 会 严重 出 错 。 我 可 以 根据 两 个 合 情 
合理 的 规则 一 一 如 果 灭 火 喷 水 系统 打开 了 ， 那 么 玻璃 就 会 湿 ， 如 果 玻 璃 
湿 了 ， 那 么 下 十 了 一 一 推导 出 一 条 死 请 的 规则 : 如 果 灭 火 喷 水 系统 打开 
了 ， 那 么 下 雨 了 。 一 个 潜藏 得 更 深 的 问题 是 ， 有 了 置信 硫 评 级 规则 ， 我 
们 容易 重复 计算 证 据 。 假 设 你 在 读 《 纽 约 时 报 》， 讲 的 是 外 星人 已 经 登 
陆地 球 。 这 一 天 不 是 4 月 1 日 ， 可 能 这 是 一 个 玩笑 。 但 是 现在 你 在 《 华 尔 
街 日 报 》《 今 日 美国 》《 华 盛 顿 邮 报 》 看 到 一 样 的 标题 。 你 开始 感到 惰 
张 ， 就 像 奥 森 : 威 尔 斯 声名 狠 藉 的 广播 剧 《 世 界 大 战 》 的 听众 一 样 ， 没 


意识 到 这 只 是 戏剧 化 的 描写 。 但 是 ， 如 宁 你 得 看 细节 ， 会 发 现 这 四 家 
报社 都 从 美 联 社 那 里 得 到 这 个 新 闻 标 题 ， 你 又 返回 去 怀疑 这 是 一 个 玩 
笑 ， 而 这 次 开玩笑 的 是 一 位 美 联 社 的 记者 。 规 则 系统 无 法 解决 这 个 问 
题 ， 朴 素 贝 叶 斯 法 也 一 样 。 如 果 它 标 出 诺 如 “由 《纽约 时 报 》 报 道 的 字 
样 ， 预 示 新 闻 事 件 是 真实 的 ， 那 么 它 能 做 的 也 只 是 加 上 “由 美 联 社 报 
道 ” 的 字样 ， 这 样 只 会 让 事情 变 得 更 糟糕 。 


20 世 纪 80 年 代 终 于 有 了 突破 。 朱 巡 亚 : 珀 尔 ( 加 州 大 学 洛杉矶 分 校 
的 一 名 计算 机 科学 教授 ) 发 明了 一 种 新 的 表示 方法 : 贝 叶 斯 网 络 。 珀 尔 
征 世 界 上 最 为 结 闭 的 计算 机 科学 家 之 一 ， 他 的 方法 在 机 器 学 习 、 人 工 知 
能 ， 以 及 其 他 许多 领域 迅速 传播 。2012 年 ， 他 获得 图 灵 奖 ， 这 是 计算 机 
科学 领域 的 话 贝尔 奖 。 


珀 尔 意识 到 ， 拥 有 一 个 随机 变量 之 间 复 杂 的 依赖 天 系 网 络 也 没 什 

么 ， 只 要 每 个 变量 仅仅 直接 依赖 于 其 他 几 个 变量 。 我 们 可 以 如 之 前 看 到 
的 号 尔 可 夫 链 和 和 HMM 那样 ， 用 一 幅 图 来 表示 这 些 依赖 关系 ， 除 了 现在 
该 图 可 以 是 任意 结构 〈 只 要 箭头 不 会 形成 团 环 ) 。 班 尔 最 喜欢 的 例子 之 
一 就 是 防盗 报警 器 。 当 禄 贼 企图 闪 入 时 ， 你 房子 的 报警 圳 应 该 会 啊 起 

来 ， 但 它 也 可 能 会 因为 地 震 而 响起 (在 洛杉矶 ， 珀 尔 居住 的 地 方 ， 地 震 
和 盗窃 案 发 生 的 频率 一 样 ) 。 如 果 你 此 时 工作 到 很 晚 ， 而 你 的 邻居 鲍 勃 
打 电 话 给 跟 说 他 听 到 你 家 的 报警 器 啊 了 ， 而 你 的 邻居 克莱尔 却 没 打 给 

你 ， 你 应 该 报警 吗 ? 图 6-3 表 明了 这 种 依赖 关系 。 


图 6-3 


如 果 图 中 有 一 个 第 头 从 一 个 节操 指 到 为 外 一 个 节点 ， 我 们 说 第 一 个 
市 点 是 第 二 个 市 反 的 父 节 点 。 那 么 “报警 器 ”的 父 节 点 束 是 “ 盗 贸 
案 " 和 “地 震 "， 而 “报警 器 ?是 “ 鲍 艺 打 来 电话 ”和 “克莱尔 打 来 电话 ”的 唯一 
父 节 点 。 贝 叶 斯 网 络 就 是 像 这 样 的 依赖 关系 图 ， 附 带 一 张 包含 每 个 变量 
的 表格 ， 给 出 变量 父 节 点 的 每 个 值 的 组 合 概率 。 对 于 “ 盗 锣 案 " 和 “地 
震 ”， 我 们 只 需 每 个 一 个 概率 ， 因 为 它们 没有 父 刷 点 。 对 于 “报警 锅 ? 我 
们 需要 四 个 概率 : 如 果 盗 狗 案 和 地 震 都 不 有 发生， 报警 器 啊 起 的 概率 ， 如 
果 盗 贸 案 发 生 ， 地 震 未 及 生 ， 报 警 器 啊 起 的 概率 等 。 对 于 “ 鲍 艺 打 来 电 
话 ”， 我 们 需要 两 个 概率 (考虑 报警 绥 和 未 考虑 报警 器 )， 元 业 尔 的 情 
况 也 一 样 。 


以 下 是 问题 的 关键 点 ; 鲍 勃 依据 “盗窃 案 " 和 “地 震 ? 来 打 电 话 ， 但 只 
能 通过 “报警 器 "来 获取 信息 。 考 虑 到 报警 器 "时 ， 鲍 勃 的 电话 才 会 条 件 
地 独立 于 “盗窃 案 ? 和 "地震 ?之 外 ， 克 莱 尔 的 情况 也 一 样 。 如 果 报警 器 未 
响起 ， 你 的 邻居 睡 得 很 香 ， 而 窃贼 也 没有 惊扰 别人 。 同 样 ， 考 虑 到 “ 报 
警 器 ?， 鲍 勃 和 克莱尔 相互 独立 。 没 有 这 个 独立 结构 ， 你 需要 掌握 32 个 
25 概 率 ， 每 个 概率 对 应 5 个 变量 的 可 能 状态 或 者 31 个 概率 ， 如 果 你 讲 
究 细 节 ， 因 为 最 后 一 个 可 能 是 隐 含 概率 ) 。 有 了 条 件 独立 性 ， 你 需要 的 


只 是 1+1+4+2+2=10， 可 以 少 算 68% 的 概率 。 这 仅仅 是 小 例子 的 情况 ， 如 
果 有 数 百 或 者 数 干 个 变量 ， 省 力 的 程度 可 能 达到 100%。 


据 生 物 学 家 巴里 : 康 苦 纳 的 观点 ， 生 态 学 的 第 一 定律 就 是 所 有 生命 
都 与 其 他 生命 相互 关联。 这 个 说 法 可 能 正确 ， 但 也 会 使 人 们 无 法 理解 这 
个 世界 ， 如 果 不 是 多 亏 条 件 独立 性 : 每 个 生命 都 相互 关联 ， 但 只 是 间接 
关联 。 为 了 对 我 产生 影响 ，1 英 里 之 外 发 生 的 事情 ， 即 使 通过 光 传 播 ， 
也 得 先 影 啊 我 周围 的 环境 。 可 以 打趣 说 ， 空 间 是 所 有 事情 没有 都 发 生 在 
你 身上 的 原因 。 换 句 话 说， 空间 结构 是 条 件 独 立 性 的 一 个 实例 。 


在 盗 禄 案 的 例子 中 ，32 个 概率 的 完整 表格 不 会 明确 表示 出 来 ， 但 通 
过 较 小 表格 和 图 形 结构 的 集中 ， 它 会 被 隐 舍 地 表示 出 来 。 为 了 获得 
P〈 资 名 案 、 地 展 、 报 警 嚣 、 鲍 动 打 来 电话 、 克 业 尔 打 来 电话 ) ， 我 要 
做 的 就 是 把 以 下 概率 相 乘 : P【〈 盗 禄 案 ) 、P 地震 ) 、P (报警 器 | 资 
贸 案 、 地 震 ) 、P〈 鲍 劲 打 来 电话 | 报警 器 ) 、P《 殉 莱 尔 打 来 电话 | 
报警 器 ) 。 在 任意 贝 叶 斯 网 络 中 也 是 同样 的 道理 : 为 了 获得 完整 状态 的 
概率 ， 只 需 将 单个 变量 表格 中 相应 行 上 的 概率 相 乘 。 因 此 ， 只 要 条 件 独 
并 性 有 效 ， 转 换 到 更 加 简洁 的 表示 方法 不 会 导致 信息 丢失 。 这 样 我 们 区 
可 以 很 容易 算出 极 问 非 寻 利 状态 的 概率 ， 包 括 之 前 未 观察 到 的 状态 。 贝 
叶 斯 网 络 揭穿 这 样 一 个 常识 性 错误 : 机 器 学 习 无 法 预测 鲜 有 的 时 间 ， 或 
者 纳西 姆 ` 塔 勒 布 口中 的 “ 黑 天 斤 ”。 


回想 一 下 ， 我 们 可 以 看 到 朴 稍 贝 叶 斯 法 、 马 尔 可 夫 链 、HMM 都 是 
贝 叶 斯 网 络 的 特殊 例子 。 朴 素 贝 叶 斯 法 的 结构 如 图 6-4 所 示 。 


图 6 -4 


马尔 可 夫 链 隐 含 这 样 的 猜想 : 考虑 到 现在 ， 未 来 会 有 条 件 地 独立 于 
过 去 。 此 外 ，HMM 假 设 每 个 观察 值 只 依赖 于 对 应 的 状态 。 贝 叶 斯 网 络 
对 贝 叶 斯 学 派 来 说 ， 就 像 馆 辑 与 符号 学 者 的 关系 : 一 种 通用 语 ， 可 以 让 
我 们 很 好 地 对 各 式 各 样 的 情形 进行 编码 ， 然 后 设计 出 与 这 些 情形 相 一 致 
的 算法 。 


我 们 可 以 把 贝 叶 斯 网 络 想 成 <* 生 成 模型 ”， 即 从 概率 的 角度 ， 形 成 世 
界 状态 的 方法 : 首先 要 决定 盗窃 案 或 地 震 是 否 会 发 生 ， 然 后 在 此 基础 上 
决定 报警 器 是 否 会 响起 ， 再 次 在 此 基础 上 决定 鲍 勃 和 克莱尔 是 否 会 打 电 
话 。 贝 叶 斯 网 络 讲述 这 样 的 故事 : A 发 生 了 ， 接 着 它 导 致 B 的 发 生 ;， 同 
时 ，C 也 发 生 了 ， 而 B 和 C 共 同 引 起 D 的 发 生 。 为 了 计算 特定 事件 的 概 
率 ， 我 们 只 需 将 与 之 相关 事件 的 概率 相 乘 即 可 。 


贝 叶 斯 网 络 最 激动 人 心 的 应 用 之 一 ， 就 是 模拟 基因 在 活 细胞 中 如 何 
相互 管制 。 人 们 已 经 花费 数 十 亿美 元 来 找到 单个 基因 和 特殊 疾病 的 两 两 
相关 关系 ， 但 产 出 却 低 得 让 人 失望 。 回 想 一 下 ， 这 并 不 奇怪 : 细胞 的 活 
动 是 基因 与 环境 复杂 的 相互 作用 的 结果 ， 而 单个 基因 的 预测 能 力 有 限 。 
但 有 了 贝 叶 斯 网 络 ， 我 们 可 以 揭 开 这 些 相互 关系 ， 只 要 我 们 有 必要 的 数 
据 ， 而 随 着 DNA 微 阵列 技术 的 普及 ， 我 们 越 来 越 有 和 希望 能 做 到 。 


开 尽 机 强 学 习 在 垃圾 邮件 的 应 用 之 后 ， 大 卫 : 赫 元 曼 开始 转 癌 将 贝 

叶 斯 应 用 于 抵抗 艾 汶 病 的 斗争 中 。 艾 滋 病 病毒 是 很 强 的 对 手 ， 因 为 它 可 
以 迅速 变异 ， 这 样 所 有 疫苗 或 者 药物 长 时 间 抑 制 艾滋 病 病 毒 就 变 得 困 
难 。 赫 元 曼 注 意 到 ， 这 是 一 个 和 猫 捉 老鼠 一 样 的 游戏 ， 垃 圾 邮件 过 滤器 
和 垃圾 邮件 玩 页 。 他 决定 将 自己 学 习 的 一 个 经 验 付 诸 实 践 ， 攻击 最 弱 的 
链接 。 在 垃圾 邮件 的 例子 中 ， 弱 链接 包括 为 了 收 到 客户 的 亚 项 而 必须 使 
用 的 网 址 。 在 艾滋 病 的 例子 中 ， 它 们 天 是 病毒 各 白 质 的 微小 区 域 ， 不 伤 
害 病毒 就 无 法 改变 这 些 区 域 。 如 果 他 可 以 对 免疫 系统 进行 训练 ， 使 其 识 
别 这 些 区 域 ， 然 后 攻击 表现 这 些 区 域 的 细胞 ， 他 可 能 只 有 一 种 艾 洲 病 疫 
巩 。 赫 元 曼 和 同事 利用 贝 叶 斯 网 络 来 帮助 识别 易 受 伤 区 域 ， 并 研发 出 一 
个 疫苗 交付 机 制 ， 用 来 教 免疫 系统 只 攻击 那些 区 域 。 这 些 交 付 机 制 在 老 
鼠 身 上 起 作用 了 ， 而 且 现在 人 们 已 经 在 准备 临床 试验 。 


这 样 的 事情 经 党 发 生 : 即使 我 们 将 所 有 条 件 独 立 性 都 考虑 进来 ， 贝 
叶 斯 网 络 中 的 一 些 节 点 仍 有 太 多 的 父 节 点 。 有 些 网 络 布 满 箭头 ， 这 样 当 
我 们 打印 这 些 网 络 图 时 ， 纸 面 会 变 成 黑色 (物理 学 家 马克 :纽曼 称 之 
为 “元 座 图 *”) 。 医 生 需 要 同时 诊断 病人 可 能 患 的 病 ， 而 不 止 一 种 ， 而 且 
每 种 疾病 是 许多 不 同 症状 的 根源 。 除 了 感冒 ， 发 烧 可 能 由 任意 数量 的 条 
件 引 起 ， 但 是 考虑 到 条 件 的 每 个 可 能 的 组 合 ， 演 试 预测 其 概率 几 无 希 
望 。 其 实 还 有 一 线 希望 ， 不 需要 这 样 的 表格 : 为 每 个 状态 的 起 因 详 细 说 
明 每 个 节点 的 条 件 概 率 ， 我 们 可 以 对 较 简 单 的 分 布 进行 学 习 。 最 受 青睐 
的 选择 是 逻辑 OR 运算 (Logical OR operation ) 的 一 个 概率 版 本 : 任何 原 
因 都 可 以 独自 引起 发 烧 ， 但 每 个 原因 都 会 有 一 个 特定 、 无 法 引起 发 烧 的 
概率 ， 即 使 通常 情况 下 该 原因 引起 发 烧 的 理由 充分 。 攻 元 曼 和 其 他 人 已 
经 对 贝 叶 斯 网 络 进行 学 习 ， 通 过 这 种 方法 来 诊断 数 百 种 传染 病 。 谷 歌 在 
其 AdSense 系 统 中 利用 这 种 类 型 的 庞大 贝 叶 斯 网 络 ， 用 于 目 动 选择 广告 
放 入 网 页 中 。 该 网 络 将 100 万 的 满足 变量 相互 关联 起 来 ， 同 时 还 通过 3 亿 
个 第 涉 与 1200 万 的 词语 和 词组 相关 联 ， 这 些 词语 和 词组 都 是 从 1000 亿 个 
文本 片段 和 搜索 词 条 中 掌握 的 。 


说 点 轻松 的 ， 微 软 的 Xbox ” ”Live 游戏 用 贝 叶 斯 网 络 来 对 选手 进行 排 
名 ， 并 对 技术 水 平 相 似 的 选手 进行 配对 。 这 球 游 戏 的 结果 就 是 可 以 知道 
对 手 技 术 水 平 的 一 个 概率 函数 ， 而 且 利 用 贝 叶 斯 定理 ， 我 们 可 以 从 选手 
的 游戏 结果 推断 选手 的 搁 术 水 平 。 


推理 问题 


遗憾 的 是 ， 推 理 问题 是 一 个 巨大 的 障碍 。 仅 仅 因 为 贝 叶 斯 让 我 们 简 
洁 地 表达 概率 分 布 ， 这 并 不 意味 着 我 们 也 可 以 利用 它 进 行 有 效 推理 。 假 
设 你 想 计 算 P《〈 盗 穷 案 | 鲍 勃 打 电话 ， 而 克莱尔 没有 ) 。 利 用 贝 叶 斯 定 
理 ， 你 知道 这 仅仅 是 P 【盗窃 案 ) P ( 鲍 勃 打 电 话 ， 而 克莱尔 没有 | 次 
鳃 案 ) /P〈 鲍 勃 打 电话 ， 而 克莱尔 没有 ) ， 或 者 相当 于 P《〈 资 窃 案 ， 饱 
勃 打 电 话 ， 而 克莱尔 没有 ) 人 P【〈 鲍 勃 打 电 话 ， 而 克莱尔 没有 ) 。 如 果 有 
包含 所 有 状态 的 概率 的 完整 表格 ， 你 可 以 获得 这 两 个 概率 ， 方 法 就 是 把 
表格 中 对 应 行 的 值 加 起 来 。 例 如 ，P (〈 鲍 勃 打 电 话 ， 而 克莱尔 没有 ) 是 
在 所 有 包含 鲍 勃 打 电话 ， 而 克莱尔 没有 的 概率 的 行 中 ， 把 这 些 概率 值 加 
起 来 ， 但 是 贝 叶 斯 网 络 不 会 给 你 完整 的 表格 。 你 总 可 以 通过 单个 表格 来 
构建 这 样 的 表格 ， 但 这 需要 很 多 时 间 和 空间 。 我 们 真正 需要 的 是 计算 
P( 盗 鳃 案 | 鲍 勃 打 电话 ， 而 克莱尔 没有 ) ， 而 不 用 建立 完整 的 表格 。 
简单 地 说 ， 那 就 是 贝 叶 斯 网 络 中 的 推理 问题 。 


在 许多 例子 中 ， 我 们 可 以 做 到 这 一 点 ， 并 避免 指数 性 暴 增 。 假 设 夜 
深入 静 时 你 正 带领 排 成 纵队 的 一 个 排 ， 罕 过 敌人 的 领地 ， 而 你 想 确认 所 
有 士兵 仍 在 跟着 你 。 你 可 以 停 下 ， 目 己 数 人 数 ， 但 那样 做 会 当 费 太 多 时 
间 。 一 个 更 聪明 的 办 法 就 是 只 问 排 在 你 后 面 的 第 一 个 兵 :“ 你 后 面 有 几 
个 兵 ? ”每 个 士兵 都 会 问 自己 后 面 的 士兵 同一 个 问题 ， 知 道 最 后 一 个 士 
兵 回答 “一 个 也 没有 。” 倒 数 第 二 个 士兵 现在 可 以 说 “一 个 ”>， 以 此 类 推 ， 


直到 回 到 第 一 个 士兵 ， 每 个 士兵 都 会 在 后 面 士兵 所 报 数 的 基础 上 加 一 。 
现在 你 知道 有 多 少 兵 还 跟 独 你， 你 甚至 都 不 用 停 下 来 。 


Siri 用 同样 的 想法 来 计算 你 刚才 说 的 概率 ， 通 过 它 从 麦克 风 中 听 到 
的 声音 来 进行 “报警 >。 把 “Call the police” (报警 ) 想 成 一 排 单 词 ， 正 以 
纵队 形式 在 页 面 上 行走 ,“police” 想 知道 它 的 概率 ， 但 要 做 到 这 一 点 ， 
它 需 要 知道 *the” 的 概率 ; “the”" 回 过 头 要 知道 “call” 的 概率 。 所 以 “call” 计 
算 它 的 概率 ， 然 后 将 其 传递 给 "the”, “the” 重 复 步骤 并 将 概率 传递 
给 “police”。 现 在 “police” 知 道 它 的 概率 了 ， 这 个 概率 受到 句子 中 每 个 词 
语 的 适当 有 影响， 但 我 们 绝 不 必 建 并 8 个 概率 的 完整 表格 (第 一 个 单词 是 
否 为 “call”"， 第 二 个 是 否 为 “the”， 第 三 个 是 否 为 “police”) 。 实 际 上 ， 
Siri 考 虑 在 每 个 位 置 中 出 现 的 所 有 单词 ， 而 不 仅仅 是 第 一 个 单词 是 否 
为 call 等 ， 但 算法 是 一 样 的 。 也 许 Siri 认 为 ， 在 声音 的 基础 上 ， 第 一 个 
单词 不 是 “cal]”* 就 是 “tell*"， 第 二 个 不 是 “the” 就 是 “her”"”， 第 三 个 不 
是 “police” 就 是 “please”。 个 别 地 ， 也 许 最 有 可 能 的 单词 
是 “call” “the” 和 “please”。 但 那样 会 变 成 一 句 没 有 意义 的 话 “Call the 
please”， 所 以 要 考虑 其 他 单词 ，Siri 得 出 结论 ， 认 为 句子 就 是 “Call the 
police”。 它 会 打 电 话 ， 幸 运 的 是 警察 及 时 赶 到 你 家 并 抓 住 小 偷 。 


如 果 图 是 一 棵 树 而 不 是 一 条 链 ， 那 么 同样 的 想法 还 会 奏效 。 如 果 你 
领导 的 是 整 文 军 队 而 不 仅仅 是 一 个 排 ， 你 可 以 问 每 个 连 长 ， 他 们 身后 有 
多 少 士兵 ， 然 后 把 他 们 的 回答 相 加 。 反 过 来 ， 每 个 连 长 会 问 他 的 每 个 排 
长 ， 以 此 类 推 。 但 如 果 图 形 形 成 环 状 ， 你 就 会 遇 到 麻烦 。 如 果 有 一 个 联 
络 官员 ， 他 同时 是 两 个 排 的 成 员 ， 他 会 数 两 次 数 。 实 际 上 ， 他 身后 的 每 
个 人 都 会 数 两 次 。 这 就 是 “外 星人 登陆 ”情形 中 发 生 的 问题 ， 举 个 例子 ， 
如 果 你 想 计算 您 屋 的 概率 ， 如 图 6-5 所 示 。 


《纽约 时 报 》 


报道 该 新 闻 


《华尔街 日 报 》 
报道 该 新 闻 


图 6-5 


有 一 个 办 法 就 是 将 《纽约 时 报 》 报 道 该 新 闻 ” 与 <《 华 尔 街 日 报 》 
报道 该 新 闻 ?” 结 合 起 来 ， 变 成 一 个 拥有 4 个 值 的 单个 特大 变量 : 如 果 它 们 
都 报道 了 ， 那 就 是 “是 是 ”; 如果 《 纽 约 时 报 》 报 道外 星人 登陆 ， 而 《 华 
尔 街 日 报 》 没 有 ， 那 就 是 “是 否 ” 等 等 。 这 样 图形 束 会 变 成 一 条 含 三 个 
变量 的 链子 ， 一 切 顺利 。 然 而 ， 每 次 你 加 入 新 来 源 时 ， 特 大 变量 的 值 的 
数量 会 翻 倍 。 如 果 你 有 50 而 不 是 2 个 新 来 源 ， 特 大 变量 会 有 250 个 值 。 所 
以 这 种 方法 只 能 帮 你 帮 到 这 里 ， 而 更 有 效 的 方法 还 未 被 人 发 现 。 


这 个 问题 比 表 面 看 起 来 的 还 要 粳 糕 ， 因 为 贝 叶 斯 网 络 实际 上 有 “ 隐 
形 的 ”箭头 伴随 痢 看 得 见 的 箭头 。“ 盗 贸 案 "和 ”“ 地 震 ? 是 相互 独立 的 先 验 
条 件 ， 但 报警 器 啊 起 会 使 两 者 纠缠 在 一 起 : 报警 此 让 你 怀疑 有 盗 穷 ， 但 
如 果 现 在 听 广 播 阅 有 地 震 ， 你 会 假定 那 是 让 报警 喜 啊 起 的 原因 。 地 震 已 
经 “通过 解释 消除 ?报警 右 啊 起 的 疑 赎 ， 这 样 盗 贸 束 不 太 可 能 会 发 生 ， 因 


此 两 者 又 相互 依赖 了 。 在 贝 叶 斯 网 络 中 ， 所 有 变量 的 根源 都 以 这 种 方式 
相互 独立 ， 而 这 反 过 来 引入 进一步 的 依赖 和 关系， 这 就 使 得 最 后 的 图 往往 
比 最 初 的 图 要 更 加 密集 。 


推理 的 关键 问题 是 你 能 人 否 使 填 好 的 图 “看 起 来 像 一 棵 树 ”， 而 不 让 树 
干 变 得 太 密 。 如 果 术 于 上 的 特大 变量 包含 过 多 的 可 能 值 ， 这 株 树 会 不 受 
限制 地 生长 ， 直 到 它 才 盖 整个 星球 ， 像 《小 王子 》 中 的 猴 面 包 树 一 样 。 
在 生命 之 树 中 ， 每 个 物种 都 是 一 个 分 校 ， 但 每 个 枝 干 内 部 是 一 个 图 ， 
个 生物 都 有 一 对 父母 ， 各 有 一 对 和 祖父母、 外 祖父 母 ， 以 及 者 干 个 后 代 
等 。 校 干 的 “厚度 ”是 物种 数量 的 大 小 。 当 枝 干 过 于 成 密 时 ， 我 们 的 唯一 
选择 就 是 求助 于 近似 推理 。 


有 一 个 方法 ， 珀 尔 在 关于 贝 叶 斯 网 络 的 书 中 ， 将 其 当 作 练 习 ， 也 就 
是 假装 图 形 没有 闭环 ， 并 来 来 回回 传播 概率 ， 直 到 这 些 概率 集中 于 一 
点 。 这 被 人 们 称 为 “ 环 路 信念 传播 ”(loopy belief propagation) ， 因 为 它 
在 含有 闭环 的 图 形 中 能 起 作用 ， 也 因为 这 是 一 个 状 狂 的 想法 。 让 人 惊讶 
的 是 ， 在 许多 例子 中 ， 它 能 很 好 地 起 作用 。 例 如 ， 这 对 于 无 线 通信 来 
说 ， 是 最 先进 的 方法 ， 随 机 变量 在 信息 中 被 当 作 数位 ， 以 灵活 的 办 法 被 
编码 起 来 。 环 路 信念 传播 也 可 以 收敛 变 成 错误 的 答案 ， 或 者 永远 处 于 振 
荡 状 态 。 还 有 男 一 个 办 法 ， 它 起 源 于 物理 学 ， 但 被 引入 机 器 学 习 ， 还 被 
迈克 尔 : 乔 丹 和 其 他 人 大 大 扩充 过 : 就 是 利用 易于 处 理 的 分 配 来 对 难以 
处 理 的 分 配 进行 粗略 估计 ， 然 后 优化 前 者 的 参数 ， 使 其 尽 可 能 地 与 后 者 
接近 。 


然而 ， 最 受 人 青睐 的 选择 就 是 借 酒 浇 悉 ， 喝 得 栈 丽 大 醉 ， 然 后 整 夜 
都 在 跌跌撞撞 。 访 选择 的 技术 术语 为 "马尔 可 夫 链 蒙特 卡 洛 理 
论 ”(Markov chain Monte Carlo，MCMC) : 有 “蒙特 卡 洛 ”这 个 部 分 ， 
是 因为 这 个 方法 涉及 机 遇 ， 比 如 到 同名 的 赌场 去 ， 有 “马尔 可 夫 链 ”部 
分 ， 是 因为 它 涉 及 采取 一 系列 措施 ， 每 个 措施 只 能 依赖 于 前 一 个 措施 。 
MCMC 中 的 思想 就 是 随便 走 走 ， 就 像 众 所 周知 的 醉 汉 那样 ， 以 这 样 的 方 


式 从 网 络 的 这 个 状态 跳 到 另 一 个 状态 。 这 样 长 期 下 来 ， 每 个 状态 受 访 的 
次 数 束 与 它 的 概率 成 正比 。 比 如 ， 接 下 来 我 们 可 以 估算 盗 禄 案 的 概率 为 
我 们 访问 某 个 状态 的 时 间 段 ， 在 这 个 状态 中 有 一 起 资 德 案 。 一 条 “和 守 规 
和 窍 的 ?马尔 可 夫 链 会 收银 到 稳定 分 布 中 ， 所 以 过 一 会 儿 它 总 会 给 出 大 致 
一 样 的 答案 。 例 如 ， 当 你 洗 一 副 扑 元 牌 时 ， 过 一 会 儿 ， 所 有 牌 的 顺序 都 
会 近似 ， 无 论 最 初 的 顺序 是 什么 。 所 以 你 知道 如 果 有 n 种 可 能 的 顺序 ， 
每 种 顺序 的 概率 就 是 In。MCMC 的 秘诀 就 在 于 设计 一 条 马尔 可 夫 链 ， 
收敛 于 我 们 贝 叶 斯 网 络 的 分 布 中 。 有 一 个 简单 的 选择 ， 就 是 重复 循环 通 
过 所 有 变量 ， 考 虑 其 附近 的 状态 ， 根 据 其 条 件 概 率 对 每 个 变量 进行 取 
样 。 人 们 在 谈论 MCMC 时 ， 往 往 把 它 当 作 一 种 模拟 ， 但 它 其 实 不 是 : 马 
尔 可 夫 链 不 会 模仿 任何 真实 的 程序 ， 我 们 将 其 创造 出 来 ， 目 的 是 为 了 从 
贝 叶 斯 网 络 中 有 效 生 成 样本 ， 因 为 贝 叶 斯 网 络 本 身 就 不 是 序 变 模式 。 


MCMC 的 起 源 可 以 追溯 到 曼哈顿 计划 ， 那 时 物理 学 家 们 需要 估算 中 
子 与 原子 相 撞 的 概率 ， 并 引发 连锁 反应 。 但 近 10 年 来 ， 这 引发 了 一 场 革 
命 ， 常 常 使 人 们 认为 MCMC 是 有 史 以 来 最 重要 的 算法 之 一 。MCMC 不 
仅 有 助 于 计算 概率 ， 也 有 助 于 求 任 何 函 数 的 积分 。 没 有 它 ， 科 学 家 们 只 
能 受 限于 那些 用 分 析 方 法 来 求 积 分 的 函数 ， 或 者 受 限 于 那些 良性 的 低 维 
积分 ， 这 些 积 分 可 以 近似 看 作 一 系列 梯形 。 有 了 MCMC， 科 学 家 们 就 可 
以 自由 构建 复杂 的 模型 ， 直 到 计算 机 会 挑 起 重担 。 贝 叶 斯 学 派 ， 举 个 例 
子 ， 可 能 要 感激 MCMC， 因 为 MCMC 和 其 他 东西 比 ， 更 能 为 他 们 的 方 
法 提高 人 气 。 


不 好 的 一 面 在 于 ，MCMC 的 收敛 速度 往往 慢 得 让 人 难以 妨 受 ， 或 者 
在 未 完成 收敛 时 欺骗 你 已 经 完成 收敛 。 真 正 的 概率 分 配 通 常 非常 上 殊 ， 
微小 概率 的 大 片 “ 莞 地 ”会 突然 插入 “珠穆朗玛 峰 *"。 接 下 来 ， 马 尔 可 夫 链 
会 收敛 到 最 近 的 顶峰 ， 然 后 停留 在 那里 ， 得 出 侦 差 很 大 的 概率 佑 算 值 。 
这 就 像 醉 鬼 跟随 酒 的 香气 来 到 最 近 的 酒馆 ， 然 后 整 夜 符 在 那里 ， 而 不 是 
我 们 想 让 他 做 的 那样 ， 到 城市 里 游荡 。 男 一 方面 ， 如 果 我 们 不 用 马尔 可 
夫 链 而 是 只 生成 独立 的 样本 ， 和 较 简单 的 肚 特 卡 落 法 一 样 ， 没 有 任何 味 


道 指 引 我 们 ， 而 且 甚 至 可 能 都 找 不 到 那个 第 一 家 酒馆 。 这 就 像 往 城市 的 
地 图 上 射 飞 镖 ， 和 希望 飞镖 能 恰好 落 在 酒馆 上 。 


贝 叶 斯 网 络 中 的 推理 不 仅 限 于 计算 概率 ， 它 也 包括 为 证 据 找 到 最 可 
信 的 解释 方法 ， 最 能 解释 症状 的 疾病 或 者 最 能 解释 Siri 听 到 的 声音 的 词 
语 。 这 和 只 是 在 每 步 挑 最 合适 的 词语 不 一 样 ， 因 为 在 考虑 声音 的 情况 
下 ， 单 个 出 现 可 能 性 大 的 词语 ， 一 起 出 现时 可 能 性 就 不 那么 大 了 ， 
在 “Call the please” 的 例子 中 就 是 如 此 。 可 是 ， 相 同 种 类 的 算法 也 可 以 对 
这 个 任务 起 效 《〈 实 际 上 ， 多 数 语音 识别 器 会 用 到 它们 ) 。 最 重要 的 是 ， 
推理 包括 做 最 佳 决定 ， 引 导 这 些 决 定 的 ， 不 仅 仪 是 不 同 结果 的 概率 ， 还 
有 相应 的 成 本 (或 者 使 用 这 些 技术 术语 的 实用 工具 )〉 。 忽 略 你 老板 的 邮 
件 ， 安 排 你 明天 该 做 的 事情 ， 这 比 看 到 垃圾 邮件 付出 的 代价 还 要 大 ， 所 
以 很 多 时 候 最 好 允许 邮件 通过 ， 即 使 有 时 候 它 很 有 可 能 是 垃圾 邮件 。 


无 人 驾驶 车 辆 和 其 他 机 器 人 是 实践 中 概率 推理 的 最 好 例子 。 随 着 车 
转悠 起 来 ， 它 同时 会 构建 行驶 领域 的 地 图 ， 越 来 越 肯 定 地 找到 它 在 地 图 
上 的 方位 。 根 据 最 近 的 一 项 调 奋 ， 伦 敦 的 出 租车 司机 大 脑 靠 后 的 海马 区 
域 比 常人 要 大 ， 这 是 一 个 涉及 记忆 和 地 图 形成 的 大 脑 区 域 ， 因 为 他 们 要 
掌握 城市 的 布局 。 也 许 他 们 利用 的 是 相似 的 概率 推理 算法 ， 这 和 人 类 的 
情况 就 不 一 样 ， 饮 酒 似乎 并 不 能 帮 上 什么 忙 。 


掌握 贝 叶 斯 学 派 的 方法 


既然 我 们 (多 多 少 少 ， 知 道 了 如 何 解决 推理 难题 ， 束 可 以 从 数据 中 
掌握 贝 叶 斯 网 络 了 ， 因 为 对 于 页 叶 斯 学 派 来 说 ， 学 习 只 是 力 一 种 形式 的 
概率 推理 。 你 需要 做 的 只 是 运用 贝 叶 斯 定理 ， 把 假设 当 作 可 能 的 原因 ， 
把 数据 当 作 观察 到 的 效果 : 


P《〈 假 设 | 数据 ) =P《〈 假 设 ) xP《〈 数 据 | 假设 ) /PP〈 数 据 ) 


假设 可 以 和 整个 贝 叶 斯 网 络 一 样 复杂 ， 或 者 和 硬币 正面 关上 的 概率 
一 样 简单 。 在 后 一 个 例子 中 ， 数 据 仅 仅 是 一 系列 抛 硬币 行为 的 结果 。 例 
如 ， 如 果 我 们 抛 100 次 硬币 ， 有 70 次 正面 朝 上 ， 频 率 论 者 会 估算 正面 朝 
上 的 概率 为 0.7。 根 据 所 谓 的 “ 极 大 似 然 法 ”(maximum likelihood 
principle) ， 这 是 有 道理 的 : 在 所 有 正面 基 上 的 可 能 概率 中 ，0.7 是 在 抛 
100 次 ， 有 70 次 正面 朝 上 的 情况 下 最 有 可 能 的 概率 。 假 设 成 立 的 可 能 性 
是 P (数据 | 假设 ) ， 而 该 法 则 称 ， 我 们 应 该 选择 那个 能 将 该 概率 最 大 
化 的 假设 。 即 便 如 此 ， 贝 叶 斯 学 派 做 事 更 加 仔细 。 他 们 指出 ， 我 们 从 来 
无 法 肯定 哪个 假设 是 真 的 ， 所 以 我 们 不 只 是 挑 一 个 假设 ， 比 如 硬币 正面 
朝 上 的 概率 是 0.7; 相反 ， 应 该 计算 每 个 可 能 假设 的 后 验 概 率 ， 然 后 在 
做 预测 时 容纳 所 有 假设 。 所 有 假设 的 概率 之 和 必须 等 于 1， 那 么 如 果 某 
个 假设 的 概率 增 大 ， 另 一 个 则 变 小 。 实 际 上 ， 对 于 贝 叶 斯 学 派 来 说 ， 没 
有 所 谓 的 真相 。 你 有 一 个 优先 于 假设 的 分 布 ， 在 见 到 数据 后 ， 它 变 成 了 
后 验 分 布 ， 这 是 贝 叶 斯 定理 给 出 的 说 法 ， 也 就 是 贝 叶 斯 定理 的 全 部 。 


这 与 传统 科学 运作 的 方式 相 背 离 。 这 就 像 在 说 :“ 实 际 上 ， 哥 白 尼 
和 托 勒 密 都 不 对 ;让 我 们 只 预测 星球 未 来 的 轨迹 ， 假 定 地 球 绕 着 太阳 
转 ， 反 过 来 也 成 立 ， 然 后 对 结果 取 平 均值 。” 


当然 ， 这 是 一 个 加 权 平 均值 ， 假 设 作为 其 后 验 概率 的 权 值 ， 那 么 能 
更 好 地 解释 数据 的 假设 会 更 有 价值 。 另 外 ， 就 像 玩 笑 说 的 那样 ， 加 入 贝 
叶 斯 学 派 意 味 着 绝 不 用 说 你 对 某 事 很 肯定 。 


不 用 说 ， 携 带 不 止 一 个 而 是 大 量 的 假设 是 一 种 巳 大 的 痛 否 。 在 掌握 
贝 叶 斯 网 络 的 例子 中 ， 我 们 做 预测 的 方法 应 该 是 对 所 有 可 能 的 贝 叶 斯 网 
络 取 平 均值 ， 包 括 所 有 可 能 的 图 形 结构 ， 以 及 每 个 结构 的 所 有 可 能 的 参 
数值 。 在 东 些 情况 下 ， 我 们 可 以 以 封闭 形式 对 参数 取 平 均值 ， 但 因为 各 
种 结构 ， 进 行 得 不 顺利 。 举 个 例子 ， 我 们 可 以 将 马尔 可 夫 链 蒙特 卡 洛 理 
论 运 用 到 网 络 的 空间 中 ， 随 着 马尔 可 夫 链 的 发 展 ， 从 这 个 可 能 的 网 络 跳 


到 另外 一 个 网 络 。 将 该 复杂 性 与 计算 成 本 和 贝 叶 斯 有 争议 的 概念 〈 真 的 
没有 所 谓 的 客观 事实 ) 结合 起 来 ， 惑 不 难 知道 为 什么 20 世 纪 频 率 论 一 直 
主导 科学 界 。 


然而 贝 叶 斯 法 还 是 有 可 取 之 处 的 ， 其 中 有 一 些 主要 原因 。 可 取 之 处 
在 于 ， 很 多 时 候 ， 几 乎 所 有 的 假设 都 会 以 微小 的 后 验 概 率 作为 结尾 ， 而 
我 们 可 以 安然 地 忽略 它们 。 实 际 上 ， 只 考虑 单个 最 可 能 的 假设 通常 是 一 
种 非 第 好 的 近似 方法 。 假 设 我 们 对 于 抛 人 硬币 问题 的 先 验 分 布 是 ， 正面 朝 
上 的 所 有 概率 均 相 等 。 看 到 连续 抛 硬币 的 结果 ， 这 个 效果 是 将 分 布 越 来 
越 多 地 集中 到 与 数据 最 为 一 致 的 假设 上 。 例 如 ， 如 果 h 包 含 正 面 明 上 的 
可 能 概率 ， 且 一 枚 硬币 正面 朝 上 的 概率 为 0.7， 我 们 会 看 到 图 6-6。 


每 次 抛 完 便 币 的 后 验 概 率 变 成 抛 下 一 次 硬币 的 先 验 概 率 ， 抛 了 一 次 
又 一 次 ， 我 们 越 来 越 肯 定 h=0.7。 如 果 我 们 只 认 准 这 一 单个 最 可 能 假设 
(在 这 个 例子 中 ，h=0.7〉 ， 这 样 贝 叶 斯 法 和 频率 论 法 就 变 得 很 相似 ， 
但 有 一 个 关键 的 不 同 点 : 贝 叶 斯 学 派 考虑 先 验 的 P《〈 假 设 ) ， 而 不 仅仅 
古 可 能 性 P《〈 数 据 | 假设 ) [数据 先 验 P《〈 数 据 ) 可 以 忽略 ， 因 为 它 对 
于 所 有 假设 来 说 都 一 样 ， 所 以 不 会 影响 获胜 者 的 选择 」】。 如 果 我 们 愿意 
假定 所 有 的 假设 都 和 先 验 概 率 均等 ， 那 么 贝 叶 斯 法 现在 就 简化 为 极 大 似 
然 法 。 因 此 贝 叶 斯 学 派 可 以 对 频率 论 者 说 :“ 看 ， 你 做 的 仅 是 我 们 所 做 
部 分 工作 的 特例 ， 但 至 少 我 们 能 够 使 日 己 的 假设 清楚 明白 。” 而 如 果 假 
设 与 先 验 概率 不 均等 ， 那 么 极 大 似 然 法 的 隐 舍 假设 (假设 和 先 验 概率 均 


等 ) 会 给 出 错误 的 答案 。 


PE 所 10 次 硬币 抛 20 次 硬币 
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图 6-6 


这 就 像 一 场 理 论 性 的 讨论 ， 却 得 出 怀 人 的 实践 性 结果 。 如 果 我 们 只 
看 了 一 次 抛 便 币 ， 而 结果 是 正面 天 上 ， 极 大 似 然 理 论 会 说 正面 天 上 的 概 
率 是 1。 这 可 能 非常 不 准确 ， 而 当 硬 币 反 面 朝 上 时 ， 会 让 我 们 措 手 不 
及 。 一 旦 我 们 看 过 很 多 抛 硬币 行为 ， 估 算 起 来 就 更 可 笔 ， 但 在 许多 问题 
中 ， 我 们 无 法 看 到 足够 多 次 数 的 “ 抛 硬币 ”， 无 论 数据 有 多 大 。 假 定单 
词 “supercalifragilisticexpialidocio ”us” 在 我 们 的 训练 数据 中 从 未 在 垃圾 邮 
件 中 出 现 过 ， 而 是 出 现在 一 封 讨论 《欢乐 满 人 间 》 的 邮件 中 。 接 下 来 ， 
包含 极 大 似 然 概率 估算 功能 的 朴素 贝 叶 斯 垃圾 邮件 过 滤器 会 决定 包含 该 
词 的 邮件 不 是 垃圾 邮件 ， 尽 管 邮 件 中 的 其 他 词 喊 着 : “ 拉 圾 邮件 ! 垃圾 
邮件 ! ”相反 ， 贝 叶 斯 学 派 会 赋予 这 个 词 较 低 但 非 0 的 概率 ， 让 其 出 现在 
垃圾 邮件 中 ， 同 时 允许 其 他 词语 将 其 覆盖 。 


如 果 我 们 努力 掌握 贝 叶 斯 网 络 的 结构 和 它 的 参数 ， 问 题 只 会 变 得 更 
糟糕 。 我 们 可 以 通过 疏 山 法 来 做 到 这 一 点 ， 由 空 的 网 络 〈 没 有 区 头 ) 开 
始 ， 诺 加 最 能 提高 可 能 性 的 箭头 ， 以 此 类 推 ， 直 到 箭头 不 再 起 改善 作 
用 。 遗 憾 的 是 ， 这 很 快 束 会 引起 大 范围 过 拟 合 ， 网 络 会 将 零 概 紊 分 配给 
未 在 数据 中 出 现 的 所 有 状态 。 贝 叶 斯 学 派 可 以 做 更 有 意思 的 事情 。 他 们 
可 以 利用 先 验 分 布 来 编码 专家 对 该 问题 的 观点 一 一 他 们 对 休 说 问题 的 回 
答 。 例 如 ， 我 们 可 以 为 医学 诊断 设计 一 个 原始 贝 叶 斯 网 络 ， 方 法 就 是 采 
访 医 生 ， 询 问 他 们 哪些 症状 可 能 会 对 应 哪些 疾病 ， 并 添加 相应 的 箭头 。 


这 就 是 “ 移 验 网 络 ?”， 而 先 验 分 布 可 以 通过 添加 或 移 除 箭头 的 数量 来 惩 昼 
殖 代 网 络 。 医 生 也 不 是 完全 可 靠 的 ， 所 以 我 们 让 数据 来 禾 凋 它们 : 如 果 
通过 添加 数据 来 提高 可 能 性 比 惩 避 重要 ， 我 们 会 做 这 件 事 。 


当然 ， 频 率 论 者 正 意识 到 这 个 问题 ， 而 且 他 们 的 回答 ， 举 个 例子 ， 
古 通 过 条 因素 来 增加 可 能 性 ， 该 因素 会 惩 麟 更 多 的 复 林 网络。 但 这 时 候 
频率 论 和 贝 叶 斯 学 派 就 无 法 区 别 了 ， 而 你 把 计 分 函数 称 作 “每 如 似 然 * 还 
征 “ 后 验 概 雍 ? 束 是 喜好 的 问题 了 。 


尽管 频率 论 者 和 贝 叶 斯 学 派 在 一 些 问题 上 存在 分 上 长 ， 对 于 概率 的 合 
义 也 存在 哲学 上 的 差异 。 认 为 概率 包含 主观 性 让 许多 科学 家 感到 略 有 不 
安 ， 但 如 果 没 有 这 一 点 ， 很 多 用 途 束 被 禁 止 了 。 如 果 你 是 频率 论 者 ， 那 
么 只 能 对 那些 发 生 次 数 超 过 一 次 的 事件 的 概率 进行 估算 。 所 以 像 < 希拉 
里 :克林顿 在 下 一 轮 总 统 苋 选中 打败 杰 布 -布什 的 概率 是 多 少 ” 这 样 的 问题 
则 无 法 回答 ， 因 为 没有 哪 场 竞 选 的 目的 是 让 他 们 互相 竞争 。 但 对 于 贝 叶 
斯 学 者 来 说 ， 概 京 是 包含 主观 程度 的 信任 ， 所 以 他 可 以 目 由 地 做 有 根据 
的 猜测 ， 而 且 推 理 演算 会 使 他 所 有 的 猜想 者 一致。 


页 叶 斯 法 不 仅 仪 适用 于 学 习 贝 叶 斯 网 络 ， 还 适用 于 其 特殊 情况 相 
反 ， 尽 省 它们 的 名 字 如 此 ， 贝 叶 斯 网 络 并 非 一 定 束 是 贝 叶 斯 学 派 的 : 频 
率 论 者 也 可 以 掌握 它们 ， 正 如 我 们 刚 看 到 的 那样 ) 。 我 们 可 以 将 先 验 分 
布置 于 任意 级 别 的 假设 中 《规则 组 、 神 经 网 络 、 程 序 ) 然后 在 给 定数 据 
的 条 件 下 ， 利 用 假设 的 可 能 性 来 对 其 进行 更 新 。 贝 叶 斯 学 派 的 观点 就 
是 ， 选 择 什么 表示 方法 由 你 决定 ， 但 得 利用 贝 叶 斯 定理 来 掌握 它 。20 世 
纪 90 年 代 ， 他 们 声势 浩大 地 接管 了 神经 信息 处 理 系统 国际 会 议 
CNIPS) ， 即 联结 学 派 研究 的 主 会 场 。 其 中 的 徘 鬼 祸首 《可 以 这 么 说 ) 
包括 大 卫 ` 麦 遍 、 雷 德 福 : 尼 尔 、 迈 克 尔 乔丹。 麦 邓 是 英国 人 ， 是 加 州 理 
工学 院 约 参 : 霍 普 菲尔德 的 学 生 ， 后 来 成 为 天 国 能 源 部 的 首席 科学 顾 
问 ， 他 表明 了 如 何 通 过 贝 叶 斯 法 来 学 习 多 层 感 知 嚣 。 尼 尔 同 联 结 学 派 介 
绍 MCMC， 而 乔丹 则 辣 他 们 介绍 变 分 推理 。 最 终 ， 他 们 指出 在 限制 范围 


内 ， 你 可 以 在 多 层 感知 器 中 “集中 ”神经 元 ， 剩 下 一 种 未 提 到 它们 的 贝 叶 
斯 模型 。 不 久 以 后 ， 在 问 NIPS 提 交 的 论文 中 ,“ 神 经 的 ”一 词 很 好 地 表达 
了 “拒绝 ”的 意思 。 有 些 研究 人 员 开 玩笑 称 ， 该 会 议 应 该 改名 为 BIPS， 

即 “ 贝 叶 斯 信息 处 理 系 统 ”(Bayesian Information Processing Systems) 。 


马尔 可 夫 权 衡 证 据 


但 在 通 往 统治 世界 的 路 上 发 生 了 有 趣 的 事情 。 利 用 贝 叶 斯 模型 的 研 
完 人 员 注 意 到 ， 如 采 你 用 非法 的 方式 来 调整 概率 ， 得 出 的 结果 会 更 好 。 
例如 ， 在 语音 识别 器 中 ， 通 过 调整 P《〈 词 语 ) 可 以 提高 准确 率 ， 但 它 就 
不 再 是 贝 叶 斯 定理 了 。 发 生 了 什么 ? 结果 是 ， 问 题 的 原因 在 于 生成 模型 
做 出 的 错误 独立 性 假设 。 简 化 的 图 形 结构 使 模型 变 得 可 筝 握 ， 而 且 值 得 
保留 ， 不 过 因为 手头 任务 ， 我 们 最 好 只 车 握 自己 能 力 范 围 内 的 最 佳 参 
数 ， 无 论 它 们 是 否 为 概率 。 朴 素 贝 叶 斯 法 的 一 个 真正 优势 在 于 ， 可 以 提 
供 少 量 而 有 信息 量 的 特征 ， 通 过 这 些 特征 可 以 预测 级 别 。 男 外 ， 它 还 可 
以 提供 快速 、 稳 健 的 方法 来 掌握 相应 的 参数 。 在 垃圾 邮件 过 涯 器 中 ， 每 
个 特征 都 是 某 个 特定 的 词语 出 现在 垃圾 邮件 中 ， 而 相应 的 参数 是 它 发 生 
的 频率 是 多 少 ， 对 于 非 垃 圾 邮件 也 是 同样 的 道理 。 以 这 种 方式 来 看 ， 考 
虚 到 把 最 佳 预 测 变 成 可 能 ， 甚 至 在 很 多 情况 下 其 独立 性 假设 受到 严重 违 
育 ， 朴 素 贝 叶 斯 可 能 是 最 优 的 。 当 我 意识 到 这 一 点 ， 并 于 1996 年 发 表 一 
篇 关于 它 的 论文 时 ， 人 们 对 于 杆 系 贝 叶 斯 的 怀疑 消解 了 ， 并 帮助 它 取 得 
成 功 。 但 它 也 癌 不 同 的 模型 迈 出 了 一 步 ， 该 模型 在 过 去 20 年 中 已 渐渐 取 
代 贝 叶 斯 网 络 ， 它 就 是 马尔 可 夫 网 络 。 


马尔 可 夫 网 络 是 一 组 特征 以 及 对 应 的 权 值 ， 特 点 和 权 值 共同 定义 概 
率 分 布 。 特 征 可 以 和 “这 是 一 首 民 歌 ” 一 样 简单 ， 也 可 以 与 “这 是 一 首 由 
喀 哈 艺术 家 创作 的 民歌 ， 有 耶 殉 斯 的 重复 乐 段 和 递 降 的 和 弦 部 分 "一样 


复 杀 。 潘 多 拉 利 用 一 大 组 特征 ， 它 将 其 称 为 “音乐 基因 组 计划 ”， 目 的 是 
为 你 挑选 要 播放 的 歌曲 。 假 定 我 们 将 它们 与 马尔 可 夫 网 络 接 通 ， 那 会 怎 
么 样 ? 如 有 果 你 喜欢 民歌 ， 相 应 特征 的 权 值 会 上 升 ， 而 当 你 打开 潘多拉 

时 ， 更 有 可 能 听 到 民歌 。 如 果 你 也 喜欢 听 吐 哈 艺 术 家 创作 的 歌曲 ， 该 特 
征 的 权 值 也 会 上 升 。 这 时 你 最 有 可 能 听 到 的 歌曲 同时 包含 这 两 种 特征 ， 
即 民 歌 和 喀 哈 艺术 家 的 创作 特点 。 如 果 你 不 喜欢 民歌 或 者 不 喜欢 嘻哈 艺 
术 家 本 号， 而 只 喜欢 两 者 的 结合 ， 那 么 你 想 要 的 是 具备 更 加 复杂 特征 

的 “嘻哈 艺术 家 创作 的 民歌 "。 潘 多 拉 的 特征 由 手工 创造 ， 但 在 号 尔 可 夫 
网 络 中 我 们 也 可 以 利用 扑 山 法 来 掌握 特征 ， 这 与 规则 归纳 相似 。 不 管 怎 
样 ， 梯 度 下 降 是 掌握 权 值 的 一 种 好 方法 。 


像 贝 叶 斯 网 络 一 样 ， 马 尔 可 夫 网 络 可 以 通过 图 表 来 表示 ， 但 它们 用 
无 向 弧 而 不 用 箭头 。 两 个 变量 被 联结 起 来 ， 这 意味 着 它们 会 直接 相互 依 
赖 ， 如 果 它 们 一 起 出 现在 茶 个 体征 中 ， 例 如 , “由 嘻哈 艺术 家 创作 的 氏 
歌 ” 中 的 “民歌 > 和 “由 喀 哈 艺术 家 创作 ”。 


马尔 可 夫 网 络 在 许多 领域 中 能 起 到 主要 作用 ， 例 如 ， 计 算 机 视 党 。 
举 个 例子 ， 一 辆 无 人 四 驶 车 辆 需 把 看 到 的 每 张 图 片 分 成 中 路 、 天 空 、 村 
庄 三 个 部 分 。 有 一 个 选择 就 是 根据 其 颜色 ， 将 每 个 像素 标记 为 三 个 部 分 
中 的 一 个 ， 但 这 种 选择 不 够 好 。 图 片 充满 嘲 杂 因素 和 变量 ， 和 车辆 会 出 现 
约 觉 ， 想 象 道路 劳 布 满 罕 石 ， 还 有 天 空中 出 现 的 一 段 段 公路 。 但 是 我 们 
知道 ， 图 片 中 近似 的 像 系 通 常 属于 同一 物体 ， 而 我 们 可 以 引入 相应 的 一 
组 特征 :对 于 每 一 对 相 令 像素， 如果 它们 属于 相同 物体 ， 则 特征 是 真 
的 ， 否 则 是 假 的 。 现 在 有 大 有 段 连续 街区 公路 和 天 空 的 图 片 比 没有 这 些 的 
图 片 更 有 可 能 ， 并 且 车 会 直 走 ， 而 不 是 不 断 左右 转 问 来 避 开 想象 中 的 兰 
石 。 


马尔 可 夫 网 络 可 以 经 过 训练 ， 来 最 大 化 整个 数据 的 可 能 性 ， 或 者 在 
知道 茶 些 信息 的 情况 下 ， 将 我 们 想 预 测 的 事情 的 可 能 性 最 大 化 。 对 于 
Siri 来 说 ， 整 个 数据 的 可 能 性 是 P《〈 单 词 、 声 音 ) ， 而 我 们 感 兴趣 的 条 件 


可 能 性 是 P (单词 | 声 首 ) 。 通 过 优化 后 者 ， 我 们 可 以 忽略 P (声音 
因为 这 个 概率 只 会 使 我 们 偏离 目标 。 既 然 我 们 忽略 它 ， 它 可 以 是 任意 复 
杂 的 。 这 比 HMM 不 切实 际 的 猜想 要 好 得 多 : 声音 只 依赖 于 对 应 的 单 
词 ， 不 会 受到 周围 环境 的 任何 影响 。 实 际 上 ， 如 果 Siri 的 所 有 关心 找 出 
你 刚才 说 的 话 ， 可 能 它 甚 至 就 不 用 担心 概率 问题 了 。 它 只 要 确保 在 计算 
它们 特征 权 值 的 总 和 时 ， 正 确 蛙 词 的 得 分 会 比 错误 单词 的 得 分 蜗 ， 而 且 
为 了 保险 ， 要 高 出 很 多 。 


类 推 学 派 用 这 种 推理 方式 得 出 其 逻辑 结论 ， 正 如 我 们 在 第 七 章 将 看 
到 的 那样 。 在 21 世 纪 的 前 10 年 ， 他 们 反 过 来 接管 NIPS。 现 在 联结 学 派 打 
着 深度 学 习 的 旗号 再 次 占据 主导 地 位 。 有 些 人 说 研究 总 是 处 于 循环 状 
态 ， 但 它 更 像 一 个 螺旋 ， 闭 环 沿 着 前 进 的 方向 绕 。 在 机 堪 学 习 中 ， 螺 旋 
会 收敛 至 终极 算法 。 


逻辑 与 概率 : 一 对 不 六 的 组 合 


你 可 能 认为 贝 叶 斯 学 派 和 符号 学 派 相处 得 很 好 ， 因 为 考虑 到 他 们 都 
相信 学 习 的 第 一 原理 方法 ， 而 不 相信 和 目 然 司 发 的 方法 。 事 实 远 不 是 这 
样 ， 符 号 学 派 不 喜欢 概率 ， 而 且 会 开 这 样 的 玩 突 :“ 换 个 电灯 泡 需 要 多 
少 个 贝 叶 斯 学 者 ? 他 们 不 确定 。 细 想 一 下 ， 原 来 他 们 是 不 确定 灯泡 是 不 
古 烧 坏 了。” 更 严肃 地 说 ， 符 号 学 派 指出 我 们 因为 概率 而 付出 的 高 吊 代 
价 。 推 理 突然 变 得 更 加 珍 贯 ， 所 有 那些 数据 都 变 得 难以 理解 ， 我 们 得 处 
理 好 先 验 概 率 ， 一 大 批 “ 僵 尸 ” 假 设 会 永远 妃 关 我们 。 短 时 间 内 将 分 散 知 
识 集中 起 来 的 能 力 ， 对 于 符号 学 派 来 说 是 多 么 重要 ， 却 已 经 消失 。 节 精 
料 的 是 ， 我 们 不 知道 如 何 对 自己 想 学 习 的 很 多 东西 进行 概率 分 配 。 贝 叶 
斯 网 络 是 在 变量 的 一 个 矢量 上 的 分 布 ， 但 在 网 络 、 数 据 库 、 知 识 库 、 语 
言 、 计 划 、 计 算 机 程序 上 的 分 布 呢 ? 所 有 这 些 在 逻辑 中 都 易于 处 理 ， 而 


无 法 掌握 它们 的 算法 明显 就 不 是 终极 算法 。 


反 过 来 ， 贝 叶 斯 学 派 指出 了 逻辑 的 脆弱 性 。 如 果 我 有 一 条 规则 ， 
如 “ 马 会 《"”， 设 有 哪个 世界 会 存在 不 会 飞 的 马 。 如 果 我 想 补 充 一 下 ， 加 
上 例外 和 条件， 例如,“ 马 会 飞 ， 除 非 它们 是 企鹅 ”"， 那 么 这 些 例 外 条 件 永 
远 都 说 不 完 〈 驶 鸟 呢 ? 笼 中 马 呢 ? 死 马 ? 断 了 翅膀 的 乌 ? 对 膀 湿 了 的 
乌 ? ) 。 有 个 医生 诊断 你 得 了 癌症 ， 而 你 想 听 不 同 的 意见 。 如 果 第 二 个 
医生 不 同意 ， 你 束 陷 入 困境 了。 你 无 法 权衡 这 两 种 观点 ， 只 能 两 个 都 相 
和信。 然后 发 生 了 一 场 灾 祸 : 猪 会 飞 ， 永 恒 运 动 成 为 可 能 ， 而 地 球 则 不 再 
存在 ， 因 为 在 逻辑 当中 ， 任 何事 都 可 以 从 矛盾 中 推理 出 来 。 再 者 ， 如 来 
知识 是 从 数据 中 向 握 得 来 的 ， 那 么 我 束 无 法 肯定 它 古 对 的 。 为 什么 符号 
学 派 却 假装 肯定 ? 无疑 休 谨 会 对 这 样 漫 不 经 心 的 态度 感到 不 满 。 


贝 叶 斯 学 派 和 符号 学 派 一 致 认为 ， 先 验 假设 不 可 避免 ， 但 对 于 他 们 
认可 的 先 验 知识 种 类 却 存 在 分 收 。 对 于 贝 叶 斯 学 派 来 说 ， 知 识 越过 模型 
的 结构 和 参数 ， 进 入 先 验 分 布 中 。 原 则 上 ， 之 前 的 参数 可 以 是 任意 我 们 
喜欢 的 值 ， 但 讽刺 的 是 ， 贝 叶 斯 学 浜 趋 网 于 选择 信息 量 不 足 的 先 验 假设 
(比如 将 相同 概率 分 配给 所 有 假设 ) ， 因 为 这 样 更 易于 计算 。 在 任何 情 
况 下 ， 人 类 都 不 是 很 擅长 估算 概率 。 对 于 结构 这 方面 ， 贝 叶 斯 网 络 提供 
直观 的 方法 来 整合 知识 : 如 果 你 认为 A 直接 引起 B， 那 么 应 把 币 头 从 A 指 
癌 B。 但 符号 学 者 则 要 灵活 得 多 : 作为 先 验 知识 ， 你 可 以 为 自己 的 学 习 
算法 提供 任何 能 用 逻辑 编码 的 东西 ， 实 际 上 ， 所 有 东西 都 可 以 用 逻辑 编 
码 ， 只 要 它 是 黑白 色 的 。 


显然 ， 我 们 既 需要 逻辑 ， 也 需要 概率 。 治 愈 况 症 就 是 一 个 很 好 的 例 
子 。 贝 叶 斯 网 络 可 以 从 单个 方面 模仿 细胞 如 何 起 作用 ， 就 像 基因 调节 和 
集 日 质 折 合 那 样 ， 但 只 有 风 辑 可 以 将 所 有 碎片 组 合 到 一 张 连 信 的 图 片 
中 。 此 外 ， 逻 辑 无 法 处 理 不 完整 或 包含 嘲 杂 因素 的 信息 ， 这 在 实验 生物 
学 中 较 普通 ， 但 贝 叶 斯 网 络 可 以 沉着 地 处 理 这 个 问题 。 


贝 叶 斯 学 习 能 对 单个 数据 表 起 作用 ， 表 中 的 每 列表 示 一 个 变量 《〈 例 


如 ， 一 个 基因 的 表达 水 平 ) ， 而 每 行 表示 一 个 实例 〈 例 如 ， 一 个 微 阵 列 
实验 ， 包 含 每 个 基因 被 观察 到 的 水 平 ) 。 如 条 表格 有 "漏洞 ?和 测量 误 
兰 ， 不 要 紧 ， 因 为 我 们 可 以 利用 概率 推理 来 弥补 漏洞 ， 然 后 对 误 过 取 平 
均值 。 但 如 果 我 们 拥有 的 表格 超过 一 个 ， 那 么 贝 叶 斯 学 习 就 会 停 沛 不 
前 。 例 如 ， 它 不 懂 如 何 将 基因 表达 的 数据 与 DNA 片 段 转译 成 重 白 质 的 数 
所 结合 起 来 ， 也 不 知道 那些 三 维 形状 的 香 白 质 如 何 反 过 来 使 它们 锁定 到 
DNA 分 子 的 不 同 部 分 中 ， 同 时 影响 其 他 基因 的 表达 。 利 用 逮 辑 ， 我 们 可 
以 轻易 地 写 出 与 所 有 这 些 方面 相关 的 规则 ， 然 后 通过 结合 相关 表格 来 对 
它们 进行 学 习 ， 但 唯一 的 条 件 束 是 表格 没有 任何 漏洞 或 者 误差 。 


将 联结 学 派 和 进化 学 派 结 合 起 来 很 简单 : 只 要 改善 网 络 结构 ， 利 用 
反问 传播 来 掌握 参数 。 但 将 逻辑 和 概率 统一 起 来 要 困难 得 多 。 最 早 尝 试 
这 么 做 的 人 是 莱 布 尼 葡 ， 他 是 逻辑 和 概率 的 开拓 者 。 还 有 一 些 19 一 20 世 
纪 最 伟大 的 哲学 家 和 数学 家 ， 比 如 乔治 :布尔 和 重 道夫 :卡尔 纳 普 ， 他 们 
都 努力 想 解决 这 个 问题 ， 但 最 终 没有 走 得 很 还 。 最 近 ， 计 算 机 科学 家 和 
人 工 智 能 研究 人 员 加 入 了 这 场 争 论 。 随 着 21 世 纪 的 到 来 ， 我 们 取得 的 最 
好 成 果 也 是 不 完整 的 ， 比 如 将 一 些 逻 辑 结构 加 入 贝 叶 斯 网 络 中 。 多 数 专 
家 相信 ， 将 逻辑 和 概率 相 统一 是 不 可 能 的 。 寻 求 一 个 终极 算法 的 前 景 ; 
不 乐观 ， 特 别 原 因 在 于 ， 当 前 进化 学 派 的 和 联结 学 派 的 算法 无 法 处 理 不 
完整 的 信息 和 多 数据 组 。 


牌 运 的 是 ， 我 们 已 经 攻克 了 这 个 难题 ， 而 终极 算法 现在 看 起 来 离 我 
们 更 近 了 。 在 第 九 章 中 ， 我 们 会 看 到 人 类 是 如 何 做 到 这 一 点 的 ， 并 做 出 
推 上 产 。 首 先 ， 我 们 要 找到 已 丢失 的 那 张 很 重要 的 拼图 : 如 何 学 习 小 数 
据 。 在 当下 数据 洪流 的 背景 下 ， 可 能 这 显得 没有 必要 ， 但 实际 上 我 们 和 
常会 发 现 ， 上 自己 有 很 多 关于 要 解决 问题 的 数据 ， 而 关于 其 他 问题 的 数据 
则 几乎 没有 。 这 是 机 器 学 习 中 最 重要 的 思想 之 一 流行 起 来 的 原因 : 类 比 
思想 。 到 目前 为 止 ， 我们 谈 到 的 所 有 和 学派 有 一 个 共同 点 : 他 们 都 学 习 研 
完 中 的 现象 的 显 式 模型 ， 无 论 它 是 一 组 规则 、 一 个 多 层 感知 器 、 一 个 基 
因 计 划 ， 还 是 一 个 贝 叶 斯 网 络 。 当 他 们 没有 足够 的 数据 来 做 这 件 事 时 ， 


就 会 被 难 住 。 但 类 比 学 派 可 以 从 甚至 小 到 一 个 例子 的 数据 中 学 习 ， 因 为 
他 们 绝 不 会 形成 一 种 模式 。 下 面 ， 让 我 们 看 看 他 们 是 怎么 做 的 。 


第 七 章 
类 推 学 派 : 像 什么 融 是 什么 


弗兰克 ' 阿 巴 内 尔 是 历史 上 最 具名 昭著 的 骗子 之 一 ， 莱 昂 纳 多 ' 迪 卡 
普 里 奥 曾 在 斯 皮尔 伯 格 的 电影 《 遂 遥 法 外 》 中 饰演 阿 巴 内 尔 。 他 伪造 价 
值 数 百 万 美元 的 支票 ， 冒 充 律 师 和 大 学 讲师 的 映 份 ， 并 以 泛 美 航 空 飞行 
员 的 假 身 份 环 游 世界 ， 这 些 都 发 生 在 他 21 周 岁 之 前 。 也 许 他 最 令 人 吃惊 
的 “事迹 ”， 就 是 在 20 世 纪 60 年 代 的 亚特兰大 成 功 假扮 医生 将 近 一 年 之 
和 久 。 行 医 应 该 需要 在 医学 院 学 习 多 年 ， 要 有 执照 、 实 习 期 等 诸如 此 类 的 
东西 ， 但 阿 巴 内 尔 成 功 避 开 所 有 这 些 细节 ， 而 且 从 未 被 人 发 现 。 


想象 一 下 如 何 去 冒 这 个 险 。 你 偷偷 摸 摸 进入 医生 不 在 的 办 公 室 ， 不 
久 后 有 个 病人 走 进来 ， 并 把 他 所 有 的 症状 都 告诉 了 你 。 现 在 你 得 给 他 诊 
上 是 ， 除 非 你 对 于 药物 一 容 不 通 。 你 只 有 一 柜子 的 病人 人 资料， 他 们 的 症 
状 、 诊 断 结 果 、 接 受过 的 治疗 等 。 你 该 怎么 办 ? 最 简单 的 办 法 就 是 找到 
和 现在 这 个 病人 症状 最 相似 的 病人 的 资料 ， 然 后 做 相同 的 诊断 。 如 果 你 
对 等 病人 的 态度 和 阿 巴 内 尔 一 样 有 说 服 力 ， 那 么 可 能 会 成 功 。 在 医学 之 
外 ， 同 样 的 思想 也 很 适用 。 如 果 你 是 一 名 年 轻 的 总 统 ， 面 临 世界 危机 ， 
束 像 肯尼迪 当年 一 样 ， 当 时 美国 的 一 架 间 谍 机 报告 ， 办 联 的 核 导 弹 被 部 
筑 在 古巴 ， 你 很 有 可 能 因为 经 验 不 足 而 措手不及 。 你 可 以 找 历 史上 与 当 
前 情况 相似 的 场景 ， 然 后 尝试 从 这 些 场景 中 吸收 经 验 。 参 谋 长 联席 会 议 


敦促 对 古巴 进行 袭击 ， 但 肯尼迪 那 时 刚 读 过 《 八 月 炮火 》， 这 是 一 本 描 
写 第 一 次 世界 大 战 的 畅销 书 ， 所 以 他 知道 那样 做 很 容易 会 引发 全 面 战 
和 争 。 所 以 他 选择 了 对 古巴 进行 海上 封锁 ， 也 许 这 样 做 把 世界 从 核 成 争 中 
拯救 出 来 了 。 


类 比 是 推动 许多 历史 上 最 伟大 科学 进步 的 动力 。 当 达尔 文 阅读 马尔 
院 斯 的 《人 口 论 》 时 ， 被 经 济 和 目 然 界 中 生存 苋 搜 的 相似 性 触动 ， 所 以 
有 了 自然 选择 理论 的 诞生 。 波 尔 的 原子 核 模型 是 由 将 模型 看 作 微型 太阳 
系 、 将 电子 看 作 行星 、 将 原子 核 看 作 太 阳 而 产生 的 。 克 库 勒 也 是 白天 做 
梦 梦 见 蛇 吃 目 己 的 尾巴 才 发 现 杀 分 子 的 环 状 结构 的 。 


类 比 推理 有 着 突出 的 知识 谱系 。 亚 里 士 多 德 在 他 的 相似 律 中 就 表达 
了 这 一 点 : 如 果 两 个 事物 相似 ， 其 中 的 一 个 想法 会 触发 另外 一 个 想法 。 
诸如 洛克 和 休 广 之 类 的 经 验 主义 者 束 退 随 这 个 规律 。 尼 采 说 ， 真 理 是 一 
支 由 上 暗喻 拟人 组 成 的 队伍 。 康 德 也 是 其 中 的 信奉 者 。 威 说 :詹姆斯 认 
为 :“ 这 种 意义 上 的 一 致 性 是 我 们 思想 的 支柱 。” 一 些 当 时 的 心理 学 家 其 
至 认为 从 整体 上 看 ， 人 类 认 知 是 分 析 必 不 可 少 的 部 分 。 我 们 依 徘 它 来 找 
到 通 往 新 城市 的 道路 ， 并 理解 诸如 “领悟 “形象 高 大 ”之 类 的 表达 。 那 些 
十 几 岁 、 喜 欢 说 话 时 在 每 个 句子 中 加 入 “ 像 ” 的 人 也 许 喜 欢 且 认 为 类 别 是 
重要 的 。 


考虑 到 这 一 点 ， 类 比 在 机 器 学 习 中 扮演 重要 角色 就 不 足 为 奇 了 。 刚 
开始 它 进 展 缓慢 ， 甚 至 被 神经 网 络 守 走 了 光 企 。 它 的 第 一 个 算法 的 化 丑 
出 现在 一 份 写 于 1951 年 、 名 不 见 经 传 的 技术 报告 中 ， 作 者 是 两 位 伯克利 
的 统计 学 家 一 一 伊 夫 琳 : 菲 元 斯 和 乔 ' 霍 奇 斯 。 这 篇 报告 儿 十 年 之 后 才 发 
表 于 主流 期 刊 中 。 但 同时 ， 关 于 菲 区 斯 和 霍 奇 斯 的 算法 的 论文 也 开始 出 
现 ， 后 来 逐渐 增加 ， 直 到 筷 成 为 计算 机 科学 界 中 受到 研究 最 多 的 文章 之 

。 最 近邻 算法 ， 正 如 其 名 ， 是 我 们 类 比 学 习 法 之 旅 的 第 一 站 。 第 二 站 
征文 持 问 量 机 ， 这 是 世纪 之 交 风 靡 机 器 学 习 领 域 的 原理 ， 但 最 近 风 头 被 
深度 学 习 掩 盖 。 第 三 站 也 是 最 后 一 站 ， 是 成 熟 的 类 比 推理 法 ， 几 十 年 来 


在 心理 学 和 人 工 智 能 的 重要 组 成 部 分 ， 也 是 几 十 年 来 机 器 学 习 领 域 的 背 


景 主题 。 


5 个 学 派 中 ， 类 推 学 派 是 最 不 具有 凝聚 力 的 一 个 学 派 。 不 像 其 他 学 
派 有 很 强 的 映 份 意识 和 共同 理想 ， 类 推 学 派 则 更 像 研究 人 员 松 散 的 集合 
体 ， 他 们 的 统一 依靠 的 是 对 于 作为 学 习 基 础 的 、 相 似 性 判断 的 信任 。 一 
些 人 ， 比 如 支持 向 量 机 的 支持 者 甚至 可 能 会 反对 将 目 己 归 入 这 个 范畴 。 
但 我 认为 如 果 人 们 能 为 共同 的 事业 而 努力 ， 会 受益 很 多 。 在 机 器 学 习 
中 ， 相 似 性 是 核心 思想 之 一 ， 而 类 推 学 派 会 以 各 种 伪装 的 方式 来 保护 
它 。 也 许 在 未 来 10 年 ， 机 口 学习 会 家 深度 类 比 统治 ， 在 茶 种 算法 中 ， 与 
最 近邻 法 的 高 效 、 文 持 问 量 机 的 数学 精密 性 、 类 比 推理 的 力量 和 灵活 性 
结合 〈 瞧 ， 我 又 泄露 了 目 己 的 一 个 秘密 研究 计划 ) 。 


元 于 为 一 音 


最 近邻 算法 是 人 类 有 史 以 来 发 明 的 最 简单 、 最 快速 的 学 习 算 法 。 实 
际 上 ， 你 甚至 可 以 说 ， 这 是 人 类 可 以 友 明 的 最 快速 的 算法 。 它 可 以 说 什 
么 也 不 做 ， 所 以 人 花 在 运行 上 的 时 间 为 零 。 再 没有 比 这 个 更 好 的 了 。 如 果 
想 掌 握 面部 识别 技巧 ， 且 有 大 量 标 有 脸 部 或 非 脸 部 标签 的 图 片 ， 你 只 需 
证 算法 竺 在 那儿 就 好 。 别 担心 ， 高 兴起 来 吧 。 在 不 知道 的 情况 下 ， 那 些 
图 片 已 经 暗中 形成 天 于 “什么 是 脸 ” 的 模型 。 假 设 你 是 脸 书 ， 想 在 照片 上 
目 动 识别 人 脸 ， 人 们 上 传 这 些 照 请， 就 是 用 朋友 的 名 字 来 标记 这 些 照 片 
的 前 委 。 不 用 做 什么 是 一 件 好 事 ， 只 要 脸 书 用 户 每 天 上 传 超过 3 亿 张 照 
片 怠 可 以 了 。 将 目前 为 止 我 们 见 过 的 学 习 算 法 《可 能 要 排除 朴素 贝 叶 斯 
法 这 个 例外 ) 应 用 到 这 些 照片 上 ， 可 能 需要 一 卡车 计算 机 ， 而 贝 叶 斯 算 
法 的 智能 程度 还 不 足以 用 来 识别 脸 部 。 


当然 ， 这 和 古 要 付出 代价 的 ， 这 个 代价 在 测试 时 会 出 现 。 名 叫 简 的 用 


户 刚 上 传 一 张 新 的 照片 。 这 是 一 张 脸 吗 ? 最 近邻 算法 的 回答 是 ， 在 脸 书 
所 有 标记 过 的 照片 库 中 ， 找 到 那 张 和 这 张 最 相似 的 照片 ( 它 的 “最 近 
邻 ?) 如果 那 张 照 片 包 含 一 张 脸 ， 这 张 也 会 有 。 这 足够 简单 ， 但 理想 的 
情况 下 ， 你 得 在 不 到 一 秒 的 时 间 内 浏览 近 几 十 亿 张 照片 。 就 像 一 个 不 想 
为 考试 而 学 习 的 懒 学 生 ， 最 近邻 算法 此 时 狸 不 及 防 ， 不 得 不 断断续续 地 
运行 。 不 像 在 现实 生活 中 ， 你 的 妈妈 会 跟 你 说 不 要 把 今天 可 以 做 的 事 留 
到 明天 ， 在 机 器 学 习 中 ， 拖 延 真 的 可 以 带 来 成 功 。 实 际 上 ， 和 学 习 的 整个 
风格 (最 近邻 算法 是 其 中 一 种 ) 有 时 会 被 人 们 称 为 “懒惰 学 习 算 法 ”， 在 
这 种 情况 下 ， 这 个 术语 并 没有 什么 贬义 。 


懒惰 学 习 算 法 之 所 以 比 它 表面 看 起 来 更 加 乔 能 ， 是 因为 虽然 它 的 模 
型 是 隐 性 的 ， 但 其 实 它 可 以 很 复杂 。 考 虑 到 极端 的 情况 下 ， 每 个 等 级 我 
们 只 能 有 一 个 例子 。 例 如 ， 我 们 想 知 道 两 个 国家 的 边界 在 哪里 ， 但 我 们 
知道 的 仅仅 是 其 首都 的 位 置 。 多 数学 习 算 法 可 能 会 被 难 住 ， 但 最 近邻 算 
法 会 恰当 地 猜 出 ， 边 界 会 是 一 条 线 ， 位 于 两 个 城市 的 中 间 位 置 《 见 图 一 
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图 7 -1 


边界 上 的 点 距 离 两 个 首都 的 距离 者 一样 ， 边 界线 左边 的 点 距离 
Positiville 市 较 近 ， 因 此 最 近邻 算法 假定 这 些 点 是 Posistan 国 的 一 部 分 ， 
反之 亦 然 。 如 果 那 条 线束 是 准确 的 边界 ， 当 然 是 万 壮 ， 但 作为 一 种 近似 
法 ， 很 有 可 能 这 条 线 什么 也 不 是 。 当 我 们 知道 边界 线 两 边 都 有 很 多 城市 
时 ， 事 情 才 真 正 变 得 有 趣 起 来 〈《 见 图 7-2) 。 
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图 7-2 


最 近邻 算法 可 以 暗中 形成 一 条 非常 复杂 的 边界 线 ， 虽 然 它 所 做 的 只 
是 记 住 每 个 城市 的 位 置 ， 然 后 将 这 些 点 相应 地 分 给 每 个 国家 。 我 们 可 以 
将 城市 的 ' 看 作 那 些 最 靠近 该 城市 的 点 ， 城 域 之 间 的 界线 在 图 中 用 
虚线 来 表示 。 现 在 Posistan 只 是 它 的 所 有 城市 城 域 的 集合 ， 和 Negaland 一 
样 。 相 反 ， 决 策 树 〈( 举 个 例子 ) 也 许 只 会 形成 不 是 两 北 同 就 是 东西 同 的 
边界 ， 可 能 更 不 利于 找到 真正 的 边界 。 因 此 ， 虽 然 决 策 树 算法 “愿望 更 
加 强烈 ”， em 旦 弄 明 白 边 界线 的 位 置 ， 但 “懒惰 的 ”最 
近邻 算法 实际 上 最 后 会 胜出 。 


懒惰 学 习 算法 会 胜出 的 原因 在 于 ， 和 构建 全 局 模型 (例如 ， 决 集 
树 〉 相 比 ， 只 要 每 次 弄 明 白 指 定 的 点 在 哪里 会 较为 简单 。 想 象 一 下 ， 利 
用 决 全 树 来 尝试 确定 什么 是 脸 。 你 可 以 说 ， 脸 有 两 只 眼睛 、 一 个 田子 和 
一 张嘴 ， 但 什么 是 眼睛 ， 而 你 在 一 张 图 片 中 怎样 才能 找到 它 昵 ?如 果 人 


的 眼睛 是 闭 上 的 ， 那 义 会 怎样 呢 ? 准 确定 义 一 张 脸 ， 细 到 每 个 像素 ， 这 
征 十 分 困难 的 ， 在 表情 、 姿 态 、 背 景 、 光 线条 件 各 异 的 情况 下 尤 甚 。 而 
最 近邻 算法 则 走 捷径 : 如 果 数 据 库 中 与 简 上 传 的 最 相似 的 那 张 照片 是 脸 
部 照片 ， 那 么 简 的 照片 也 是 。 要 出 现 这 种 情况 ， 数 据 库 就 得 有 一 张 照 

请， 与 新 照片 足够 相似 ， 因 此 ， 数 据 库 越 大 越 好 。 对 于 一 个 简单 的 二 维 
问题 ， 比 如 猜 出 两 个 国家 的 边界 ， 一 个 小 数据 库 就 足够 了 。 对 于 一 个 很 
难 的 问题 来 说 ， 如 识别 脸 部 ， 因 为 每 个 像素 的 颜色 都 是 变化 的 一 个 维 

度 ， 所 以 需要 巨大 的 数据 库 。 目 前 我 们 有 这 些 数据 库 。 但 对 于 淘 望 学 习 
的 算法 来 说 ， 要 从 这 些 数据 库 中 学 习 东 西 可 能 代价 很 大 ， 因 为 这 种 算法 
要 明确 划分 脸 部 和 非 脸 部 的 界线 。 然 而 ， 对 于 最 近邻 算法 来 说 ， 界 线 隐 
含 在 数据 点 和 距离 度量 中 ， 而 唯一 要 付出 的 就 是 查询 时 间 。 


构建 局 部 模型 而 非 全 局 模型 的 相同 想法 可 以 应 用 于 分 类 之 外 的 用 
途 。 通 第 科学 家 们 利用 线性 回归 来 预测 连续 变量 ， 但 大 多 数 现象 是 非 线 
性 的 。 笠 运 的 是 ， 从 局 部 来 看 ， 它 们 是 线性 的 ， 因 为 平滑 曲线 可 以 局 部 
近似 为 下 线 。 因 此 如 果 你 只 用 直线 来 对 查询 点 附近 的 点 ， 而 不 是 尝试 对 
所 有 的 数据 都 进行 拟 合 ， 那 么 你 现在 就 能 拥有 一 个 非常 强大 的 非 线 性 回 
归 算 法 。 懒 惰 也 会 有 回报 。 如 果 上 肯尼迪 需要 一 套 完整 的 国际 关系 理论 来 
决定 该 如 何 应 对 苏联 在 古巴 部 署 的 导弹 ， 他 可 能 会 遇 到 有 麻烦。 相反 ， 他 
从 这 个 危机 与 第 一 次 世界 大 战 的 爆发 之 间 找 到 相似 点 ， 而 这 个 相似 点 指 
引 他 做 了 正确 的 决定 。 


最 近邻 算法 可 以 用 来 救 合 ， 正 如 史 蒂 分 : 约 险 了 进 在 《幽灵 地 图 》 中 
描述 的 那样 。1854 年 ， 伦 敦 爆发 堆 乱 ， 城 市 部 分 地 区 8 个 人 中 就 有 1 个 人 
死亡 。 当 时 的 理论 认为 ， 霍 乱 由 “不 民 气 体 ? 引 起 ， 但 该 理论 并 没 能 阻止 
霍乱 的 蔓延 ， 约 疹 : 斯 诡 《 一 位 质疑 该 理论 的 内 科 医 师 ) 则 有 更 好 的 主 
意 。 他 在 伦敦 地 图 上 标 出 所 有 霍乱 病例 的 位 置 ， 然 后 划分 地 图 ， 每 个 区 
域 都 距离 公共 水 泵 最 近 。 有 了 ! 几乎 所 有 死者 都 位 于 茶 个 特定 水 双 
的 “ 城 域 " 中 ， 也 就 是 位 于 苏 活 区 的 布 多 德 大 了 街 上 。 经 推 叶 并 里 的 水 被 污 
染 了 ， 斯 诺 说 服 当 地 人 茶 止 使 用 该 水 条 ， 流 行 病 束 消失 了 。 这 上 段 插曲 孕 


育 了 流行 病 学 ， 而 它 还 是 最 近邻 算法 取得 的 第 一 次 成 功 
式 出 现 还 是 在 近 一 个 世纪 之 后 。 


流行 病 学 正 


有 了 最 近邻 算法 ， 每 个 数据 点 就 是 自己 的 微型 分 类 器 ， 为 所 有 获取 
的 伍 询 例子 预测 级 别 。 最 近邻 算法 就 像 一 群 昌 蚁 ， 在 这 个 队伍 中 每 只 蚂 
蚁 都 做 得 很 少 ， 但 把 力量 聚集 在 一 起 ， 它 们 就 可 以 移动 高 山 。 如 果 一 只 
蚂蚁 的 负重 过 大 ， 它 可 以 和 周围 的 蚂蚁 共同 承担 。 本 着 同样 的 精神 ， 在 
k 最 近邻 算法 (k-nearest-neighbor algorithm) 中 ， 测 试 的 例子 的 分 类 方 
法 是 找到 它 的 k 最 近邻 ， 然 后 让 它们 进行 投票 。 如 有 果 距 离 上 传 照 片 最 近 
的 图 请 是 一 张 脸 ， 但 接 下 来 最 近 的 两 张 却 不 是 ， 第 三 张 最 近邻 的 照片 也 
还 是 会 认为 最 新 上 传 的 不 是 脸 。 最 近邻 算法 容易 犯 过 拟 合 错误 : 如 果 数 
据点 的 等 级 是 错误 的 ， 它 会 芝 延 到 整个 城 域 当中 。 天 最 近邻 算法 更 可 
靠 ， 因 为 只 有 在 多 数 k 近 邻 受 干扰 时 才 会 出 错 。 当 然 ， 犯 错 的 代价 束 是 
它 的 图 像 会 更 模糊 边界 的 细节 因为 投票 而 变 得 模糊 。K 值 变 大 时 ， 方 
雪 变 小 ;但 仿 差 变 大 。 


利用 多 个 /最 近邻 而 不 仅 一 个 近邻 ， 这 不 是 事情 的 结局 。 直 观 来 
看 ， 与 测试 例子 最 接近 的 例子 应 该 更 重要 。 这 让 我 们 引出 加 权 k 最 近邻 
算法 。1994 年 ， 明 尼 苏 达州 立 大 学 和 麻 省 理工 学 院 的 研究 人 员 建 立 了 一 
个 推荐 系统 ， 其 构建 基础 是 他 们 所 谓 的 “一 个 看 似 简 单 的 想法 ”: 过 去 人 
们 同意 的 话 ， 将 来 他 们 也 还 会 同意 。 这 个 想法 直接 引出 协同 过 滤 系 统 ， 
所 有 典型 的 电子 商务 网 站 都 有 这 些 系统 。 假 设 像 网 飞 一 样 ， 你 建立 了 电 
影评 分 的 数据 库 ， 用 户 对 他 看 过 的 电影 都 会 给 出 1~5 颗 星 的 评分 。 你 想 
确认 用 户 肯 恩 是 否 会 喜欢 《地 心 引 力 》， 因 此 你 找到 那些 以 往 评分 与 肯 
恩 的 评分 最 相关 的 用 户 。 如 果 他 们 对 《地 心 引 力 》 评 分 很 高 ， 那 么 可 能 
肯 恩 的 评分 也 会 很 高 ， 你 就 可 以 把 这 部 电影 推荐 给 他 。 但 是 ， 如 果 对 于 
《地 心 引力 》 他 们 有 不 同 的 看 法 ， 你 就 需要 一 个 回 退 点 ， 在 这 种 情况 下 
就 要 根据 用 户 与 肯 因 关系 的 密切 程度 来 进行 排名 。 因 此 ， 如 果 李 和 肯 因 
的 关系 比 梅 格 和 肯 恩 的 关系 密切 ， 那 么 相应 李 的 评分 也 会 更 有 价值 。 肯 
恩 的 预测 评价 就 是 与 其 相关 的 人 的 加 权 平 均值 ， 每 个 人 的 权 值 就 是 他 与 


肯 恩 关系 的 系数 。 
里 然 如 此 ， 但 还 是 有 一 个 有 趣 的 转变 。 假 设 他 和 肯 恩 有 非常 相似 的 


品位 ， 但 本 比 肯 因 脾 气 暴 躁 。 当 肯 因 给 5 笑星 时 ， 李 会 给 3 颗 星 ， 当 肯 因 
给 3 里 星 时 ， 李 会 给 1 笑星 ， 以 此 类 推 。 我们 想 用 李 的 评分 来 预测 肯 恩 的 
评分 ， 但 如 果 我 们 直接 预测 ， 会 总 差 2 颗 星 。 我 们 要 做 的 就 是 ， 在 知道 
李 的 评分 值 的 基础 上 ， 预 测 肯 恩 的 排名 超过 或 者 低 于 平均 值 的 量 。 而 现 
在 ， 既 然 当 停 总 是 比 他 的 平均 值 高 出 2 笑星 时 ， 肯 恩 也 会 比 他 的 平均 值 
局 出 两 笑星 ， 我 们 的 预测 就 会 准确 。 


顺便 说 一 下 ， 你 不 需要 显 性 评分 来 进行 协同 过 小 。 如 采 肯 恩 在 网 飞 
上 预订 了 一 部 电影 ， 意 味 着 他 可 能 会 喜欢 它 。 这 样 “ 评 分 ”也 才 有 可 能 被 
预订 或 未 被 预订 ， 而 两 个 用 户 如 果 预 订 了 很 多 一 样 的 电影 ， 那 么 他 们 品 
位 就 会 相似 。 即 便 只 是 暗暗 点 击 杀 个 东西 ， 也 会 代表 你 对 它 感 兴趣 。 最 
近邻 算法 和 以 上 提 到 的 都 会 有 效 。 目 前 ， 所 有 种 类 的 算法 都 被 用 于 为 用 
户 推荐 项 目 ， 但 加 权 K 最 近邻 算法 是 第 一 个 受到 广泛 运用 的 算法 ， 而 且 
要 打败 它 仍 然 很 困难 。 


推荐 系统 ， 亦 如 其 名 ， 是 大 业务 : 亚马逊 1/3 的 业务 来 自 它 为 用 户 
推荐 的 商品 ， 网 飞 3/4 的 业务 也 是 如 此 。 它 与 最 初 的 最 近邻 算法 相差 很 
大 ， 因 为 它 的 记忆 需求 ， 人 们 觉得 它 不 够 实用 。 回 到 那 时 ， 计 算 机 的 存 
储 器 是 用 铁 圈 做 成 的 ， 每 个 比特 一 个 铁 圈 ， 甚 至 储存 几 千 个 例子 都 很 费 
力 。 时 代 改 变 得 多 快 ! 虽然 如 此 ， 不 必 如 此 智能 ， 以 记 住 所 有 你 见 过 的 
例子 ， 然 后 搜索 这 些 例子 ， 因 为 多 数 例 子 可 能 并 不 相关 。 如 果 你 回头 看 
Posistan 和 Negaland 的 地 图 ， 你 可 能 会 注意 到 ， 如 果 Positiville 消 失 ， 不 
会 有 任何 变化 。 附 近 城 市 的 城 域 会 扩张 至 以 往 被 Positiville 占 用 的 土地 ， 
但 因为 它们 都 是 Posistan 的 城市 ， 与 Negaland 的 边界 还 是 会 一 样 。 真 正 重 
要 的 是 横路 边界 、 与 对 方 国家 的 城市 相交 的 城市 ， 其 他 所 有 的 城市 都 可 
以 忽略 。 因 此 ， 使 最 近邻 算法 更 加 有 效 的 简单 方法 ， 束 是 删除 所 有 被 它 
们 的 近邻 准确 分 类 的 例子 。 这 个 技巧 加 上 其 他 技巧 可 以 使 最 近邻 算法 得 


以 应 用 于 一 些 让 人 意外 的 领域 ， 例 如 ， 实 时 操控 机 器 人 的 手臂 。 但 不 用 
说 ， 它 们 仍然 不 是 诸如 高 频 交 易 之 类 事务 的 第 一 选择 ， 因 为 在 这 些 领 域 
中 ， 计 算 机 会 在 一 秒 钟 内 买卖 股票 。 在 它 与 神经 网 络 的 竞争 中 ， 因 为 神 
经 网 络 可 以 应 用 于 仅 含 固定 数量 的 加 法 、 乘 法 、sigmoids 函 数 的 例子 
中 ， 还 可 应 用 于 需要 为 例子 的 最 近邻 搜索 庞大 数据 库 的 算法 中 ， 因 此 神 
经 网 络 表 定 会 获胜 。 


研究 人 员 最 初 之 所 以 对 最 近邻 算法 持 怀 疑 态 度 ， 是 因为 它 不 确定 能 
否 找到 两 个 概念 之 间 的 真正 边界 。 但 1967 年 ， 汤 姆 : 科 韦 尔 和 彼得 : 哈 特 
证 明 ， 在 给 定 足 够 数据 的 情况 下 ， 最 近邻 算法 最 糟糕 时 易于 出 错 的 概率 
也 仅仅 是 最 佳 可 行 分 类 器 的 两 倍 。 举 个 例子 ， 如 果 因 为 数据 中 的 干扰 因 
素 ， 有 至 少 1% 的 测试 例子 不 可 避免 地 被 错误 分 类 ， 那 么 最 近邻 算法 保 
证 误差 率 最 多 在 2% 左 右 。 这 是 一 个 重大 的 启示 。 直 到 那 时 ， 所 有 已 知 
的 分 类 器 都 假定 边界 会 有 一 种 非常 明确 的 形式 ， 直 线束 是 典型 例子 。 这 
是 一 把 双 刃 剑 : 一 方面 ， 它 使 准确 性 的 证 明成 为 可 能 ， 正 如 在 感知 器 的 
例子 中 那样 ， 另 一 方面 ， 这 也 意味 着 分 类 器 受到 它 所 能 掌握 东西 的 严格 
限制 。 最 近邻 算法 是 史上 第 一 个 能 够 利用 不 限 数量 的 数据 来 掌握 任意 复 
杂 概 念 的 算法 。 没 人 能 指望 它 能 找到 在 超 空 间 中 、 由 数 百 万 个 例子 形成 
的 边界 ， 但 因为 科 韦 尔 和 哈 特 的 证 明 ， 我 们 知道 ， 它 们 可 能 不 会 错 得 太 
离谱 。 据 雷 : 库 效 韦 尔 的 观点 ， 当 我 们 无 法 理解 计算 机 在 做 什么 时 ， 单 
一 性 开始 产生 。 依 据 该 标准 ， 说 它 已 经 在 筹备 当中 也 不 稀奇 一 一 1951 年 
就 已 经 开始 了 ， 当 时 菲 克 斯 和 霍 奇 斯 发 明 最 近邻 算法 ， 这 个 微小 的 算法 
就 能 做 到 。 


维 数 灾难 


在 这 个 伊甸园 中 当然 也 有 一 条 蛇 ， 它 被 称 为 “ 维 数 灾难 *。 虽 然 它 对 


所 有 学 习 算 法 都 会 有 或 多 或 少 的 影响 ， 但 它 对 最 近邻 算法 的 危害 尤其 

大 。 在 低 维 度 条 件 下 《比如 二 维 或 者 三 维 ) ， 最 近邻 算法 通常 能 很 好 地 
起 到 作用 。 随 着 维 数 的 上 升 ， 事 情 束 会 很 快 陷入 朋 深 状态 。 妆 今 算 法 要 
掌握 数 干 甚至 数 百 万 个 属性 并 不 稀奇 。 对 于 电子 商务 网 站 来 说 ， 它 要 午 
握 你 的 喜好 ， 那 么 你 每 点 击 一 下 鼠标 束 算 一 种 属性 。 网 页 上 的 每 个 词 、 
图 片上 的 每 个 像素 也 是 如 此 。 即 使 只 有 数 十 或 者 数 百 个 属性 ， 最 近邻 算 
法 也 有 可 能 已 陷入 困境 。 第 一 个 问题 就 是 多 数 属 性 是 不 相关 的 :关于 肯 
恩 你 可 能 知道 100 万 个 事实 ， 但 很 有 可 能 只 有 几 个 事实 与 他 得 肺癌 的 风 
含有 天。 虽然 知道 他 是 否 吸 烟 对 于 做 出 该 预测 很 关键 ,但 是 也 可 能 对 知 
道 他 是 否 喜 欢 看 《地 心 引力 》 用 处 不 大 。 举 个 例子 ， 符 号 学 派 的 方法 很 
擅长 处 理 非 相关 属性 : 如 果 该 属性 不 含 任何 关于 等 级 的 信息 ， 那 么 它 束 
不 包含 在 决策 树 或 者 规则 集 当 中 。 但 让 人 感到 无 望 的 是 ， 最 近邻 算法 会 
受到 非 相 关 属 性 的 迷惑 ， 因 为 这 些 属性 都 能 够 促成 例子 之 间 的 相似 性 。 
有 了 足够 的 相关 属性 ， 不 相关 维度 中 的 偶然 相似 性 会 清除 重要 维度 中 有 
意义 的 相似 性 ， 而 最 近邻 算法 和 随意 猜测 相 比 也 好 不 到 哪里 。 


让 人 感到 意外 的 是 ， 有 一 个 更 环 手 的 问题 : 拥有 更 多 的 属性 可 能 
会 有 害 ， 即 使 这 些 属 性 是 相关 的 。 你 可 能 会 想 ， 终 归 信 息 越 多 越 好 。 这 
不 是 我 们 这 个 时 代 的 口号 吗 ? 但 随 着 维 数 的 上 升 ， 用 于 确定 概念 边界 的 
训练 样本 的 数量 也 会 呈 指 数 上 升 。 如 果 有 20 个 布尔 属性 ， 就 会 有 近 100 
万 个 可 能 不 一 样 的 例子 。 如 果 有 21 个 布尔 属性 ， 就 会 有 200 万 个 例子 ， 
而 边界 也 会 有 相应 数量 的 方式 来 定义 这 些 属性 。 每 个 额外 的 属性 都 会 把 
学 习 问 题 的 困难 程度 加 倍 ， 而 这 也 只 是 有 布尔 属性 的 情况 。 如 果 属 性 包 
含 很 多 信息 ， 添 加 该 属性 带 来 的 好 处 可 能 会 多 于 损失 。 如 果 你 有 的 只 是 
能 提供 很 少 信 息 的 属性 ， 比 如 邮件 中 的 词语 或 者 图 片 中 的 像素 ， 那 么 你 
可 能 会 遇 到 麻烦 ， 即 使 这 些 属性 集中 在 一 起 组 成 的 信息 足以 预测 你 想 要 
的 是 什么 。 


情况 会 变 得 更 糟糕 。 最 近邻 算法 的 基础 是 找到 相似 物体 ， 而 在 高 维 
度 情 况 下 ， 相 似 性 的 概念 就 会 无 效 。 超 空间 就 像 过 波 区 域 。 在 三 维 空间 


里 的 直觉 不 再 适用 ， 怪 异 离奇 的 事 开 始 发 生 。 想 想 一 个 橘子 : 一 层 浅薄 
的 外 壳 包 衷 着 好 吃 的 果肉 。 比 如 橘子 90% 的 半径 是 果肉 ， 剩 下 的 10% 则 
是 果 壳 ， 这 意味 着 橘子 73% 的 体积 是 果肉 〈0.93) 。 现 在 想象 一 个 超级 
橘子 : 90% 的 半径 还 是 果肉 ， 但 它 在 100 个 维度 的 空间 中 。 那 么 果肉 的 
体积 已 经 缩小 到 超级 橘子 体积 〈0.9100) 的 1/3000。 这 个 超级 橘子 全 都 是 
皮 ， 而 并 且 你 绝对 无 法 将 其 剥 开 。 


另外 一 个 让 人 不 安 的 例子 就 发 生 在 我 们 的 老 朋 友 身 上 一 一 正 态 分 
布 ， 又 名 钟 形 曲线 。 正 态 分 布 认为 ， 数 据 本 质 上 就 落 在 一 个 点 上 “《 正 态 
分 布 的 平均 值 ) ， 但 其 周 于 也 会 有 模糊 的 东西 〈 由 标准 兰 给 出 ) 。 对 
吗 ? 在 超 空间 中 不 是 这 样 的 。 在 高 维度 正 态 分 布 中 ， 你 比较 有 可 能 得 到 
远离 而 不 是 接近 平均 值 的 样本 。 超 空间 中 的 钟 形 曲 线 看 起 来 更 像 甜 甜 
圈 ， 而 不 像 钟 。 当 最 近邻 算法 走 进 这 个 题 倒 的 世界 时 ， 和 它 会 变 得 非常 困 
惑 。 所 有 的 例子 看 起 来 都 一 样 ， 同 时 因为 它们 距离 彼此 太 远 ， 无 法 做 出 
有 用 的 预测 。 如 果 你 将 例子 统一 地 随意 分 布 在 高 维度 的 立方 体 中 ， 大 部 
分 例子 会 更 接近 立方 体 的 一 个 面 ， 而 不 是 接近 它们 的 最 近邻 。 在 中 世纪 
的 地 图 中 ， 未 涉足 领域 会 被 标 上 “ 龙 "、“ 海 蛇 ” 等 其 他 虚构 出 的 生物 ， 或 
者 只 标 上 “此 处 有 怪物 ”的 短语 。 在 超 空 间 中 ， 龙 无 处 不 在 ， 你 的 前 门 也 
会 有 。 如 果 尝 试 走 到 你 隔壁 邻 大 家 ， 那 你 永远 也 到 不 了 那里 ;你 会 永远 
迷失 在 陌生 的 陆地 上 ， 在 这 里 ， 所 有 熟悉 的 东西 都 消失 不 见 。 


决策 树 也 无 法 蔷 免 于 维 数 灾难 。 举 个 例子 ， 你 打算 学 习 的 概念 是 一 
个 球体 : 球 内 的 点 是 正 的 ， 球 外 的 点 是 负 的 。 通 过 放 在 球体 内 正 合适 的 
最 小 立方 体 ， 决 策 树 可 以 估算 球体 的 体积 。 这 不 是 完美 的 方法 ， 但 也 不 
会 太 差 : 只 有 立方 体 的 角 才 会 被 误 分 类 。 但 在 高 维度 空间 中 ， 超 级 立方 
体 几 乎 所 有 的 体积 都 会 出 现在 超 球 面 外 。 对 于 你 准确 将 其 标注 为 正 的 例 
子 ， 你 会 错误 地 将 许多 负 的 例子 分 类 为 正 ， 这 会 让 你 的 准确 率 又 然 下 


降 。 


实际 上 ， 没 有 哪 种 算法 能 够 竺 免 于 维 数 灾难 。 这 是 机 器 学 习 中 ， 继 


过 拟 合 之 后 ， 第 二 个 最 糟糕 的 问题 。“ 维 数 灾难 ”这 个 术语 由 理 查 德 : 贝 
和 尔 受 在 50 岁 时 提出 的 ， 他 是 一 位 控制 论 理 论 家 。 他 观察 到 ， 控 制 算 法 在 
三 维 空间 中 可 以 起 到 很 好 的 作用 ， 但 在 高 维度 空间 中 则 变 得 效率 极 低 。 
例如 ， 当 你 想 控 制 机 器 人 手臂 中 的 每 个 节点 或 者 化 工矿 的 把 手 时 ， 这 种 
情况 就 会 出 现 。 但 在 机 器 学 习 中 ， 问 题 不 仅仅 在 于 计算 成 本 一 一 随 着 维 
数 上 升 ， 变 得 越 来 越 困难 的 是 学 习 本 号 。 


然而 ， 并 不 是 所 有 东西 都 丢失 了 。 我 们 能 做 的 第 一 件 事 就 是 摆脱 不 
相关 维度 。 决 策 树 会 自行 做 好 这 一 点 ， 方 法 就 是 计算 每 种 属性 的 信息 增 
益 ， 然 后 只 使 用 最 能 提供 信息 的 属性 。 对 于 最 近邻 算法 来 说 ， 我 们 可 以 
完成 类 似 的 事情 ， 方 法 就 是 首先 丢弃 所 有 那些 信息 增益 低 于 阔 值 的 属 
性 ， 然 后 只 在 简化 的 空间 中 测量 相似 性 。 这 对 于 一 些 应 用 来 说 足够 快 、 
足够 好 ， 但 不 幸 的 是 ， 这 种 方法 会 阻碍 许多 概念 的 学 习 ， 像 XOR 逻 辑 那 
样 : 如 果 当 与 其 他 属性 结合 时 ， 一 个 属性 只 描述 了 有 关 类 别 的 一 些 点 ， 
而 不 是 关于 自己 本 身 ， 那 么 它 就 会 被 淘汰 。 一 个 代价 更 大 但 也 更 智能 的 
选择 ， 就 是 围绕 学 习 算法 来 选择 属性 ， 并 进行 候 山 算法 研究 ， 该 研究 会 
不 断 删除 属性 ， 只 要 不 会 降低 最 近邻 算法 留存 数据 的 准确 度 。 牛 顿 也 进 
行 过 许多 次 的 属性 选择 ， 当 时 他 确定 要 预测 物体 的 轨迹 ， 最 重要 的 就 是 
要 知道 它 的 质量 一 一 不 是 颜色 、 气 味 、 年 龄 ， 或 者 无 数 其 他 的 属性 。 实 
际 上 ， 方 程式 最 重要 的 东西 ， 就 是 未 在 方程 式 中 出 现 的 所 有 数量 : 一 旦 
我 们 知道 这 些 要 点 是 什么 ， 要 和 弄 清楚 这 些 要 点 如 何 相 互 依赖 ， 就 变 得 更 
加 容易 了 。 


要 处 理 弱 相 关 的 属性 ， 一 个 选择 就 是 掌握 属性 权 值 。 我 们 不 会 让 所 
有 维度 下 相似 性 的 重要 性 相等 ， 而 是 “缩减 ?不 那么 相关 的 属性 。 假 设 训 
练 例子 是 房间 中 的 点 ， 那 么 高 度 矿 十 对 于 我 们 的 目标 就 没 那么 重要 了 。 
抛弃 这 一 点 会 将 所 有 例子 投 到 地 板 上 。 调 低 高 度 尺 寸 又 更 像 给 屋子 加 了 
一 层 更 低 的 天 花 板 。 当 计算 茶点 到 其 他 点 的 距离 时 ， 该 点 的 高 度 仍 有 价 
值 ， 但 没有 它 的 水 平 位 置 那么 重要 。 和 机 器 学 习 中 的 许多 事情 一 样 ， 我 
们 可 以 通过 梯度 下 降 来 掌握 属性 权 值 。 


一 间 屋 子 可 能 会 有 很 高 的 天 花 板 ， 但 数据 点 都 会 在 地 板 附 近 ， 就 像 
一 层 薄 薄 的 灰 持 沙 在 地 板 上 。 在 这 种 情况 下， 我们 是 六 运 的 :这 个 问题 
看 起 来 似乎 和 三 维 有 关 ， 其 实 它 更 接近 二 维 。 不 必 缩 减 高 度 ， 因 为 目 然 
己 经 为 我 们 缩减 了 。 这 个 非 一 致 性 往往 能 够 挽救 局 面 ， 通 过 这 一 点 数据 
在 〈 超 ) 空间 中 就 可 以 均匀 分 布 了 。 例 子 可 能 会 有 1000 种 属性 ， 但 实际 
上 ， 它 们 都 “生存 ”在 维度 低 很 多 的 空间 中 。 这 使 最 近 令 算法 有 助 于 识别 
手写 体 数 字 ， 例 如 ， 每 个 像 系 部 是 一 个 维度 ， 因 此 会 有 很 多 维度 ， 但 在 
所 有 可 能 的 图 片 中 只 有 一 小 部 分 是 数字 ， 所 有 图 片 都 一 起 待 在 超 空间 小 
小 的 舒适 角落 里。 但 是 ， 数 据 “ 生 存 ” 的 低 维度 空间 可 能 会 反复 无 常 。 例 
如 ， 如 果 一 间 房 有 家 具 ， 灰 侍 就 不 会 落 在 地 板 上 ， 而 会 落 在 桌面 、 椅 
面 、 床 学 、 古 芋 架 上 。 如 果 我 们 能 并 明白 灰 侍 履 凋 地 板 的 大 致 形状 ， 那 
么 我 们 需要 的 就 是 地 板 上 每 个 点 的 坐标 。 在 第 八 章 中 ， 我 们 会 看 到 机 器 
学 习 中 会 有 整个 分 文 致力 于 《可 以 这 么 说 ) 在 超 空间 的 黑暗 中 摸索 ， 以 
找到 地 板 的 形状 。 


空中 蛇 灾 


直到 20 世 纪 90 年 代 ， 应 用 范围 最 广 的 类 比 学 习 算 法 就 是 最 近邻 算 
法 ， 但 后 来 被 来 自 其 他 学 派 更 引 人 注 目的 “ 表 杀 ”和 奔 去 光臣。 当时 一 种 新 
的 以 相似 性 为 基础 的 算法 横 空 出 世 了 ， 横 扫 之 前 的 所 有 算法 。 实 际 上 ， 
你 可 以 说 它 是 自 冷 战 结束 以 来 的 男 一 个 “和 平 红利 ”。 它 就 是 文 持 问 量 机 
(Support vector machines，SVM) ， 是 弗 拉 基 米尔 :万 普 尼 克 《〈 一 位 苏 
联 频 率 论 研究 者 ) 的 创意 。 万 普 尼克 的 大 半生 都 在 莫斯科 的 控制 科学 研 
究 所 度 过 ，1990 年 ， 随 着 苏联 走向 解体 ， 他 移居 美国 ， 在 那里 他 加 入 传 
说 中 的 贝尔 实验 室 。 虽 然 在 苏联 ， 万 普 尼 元 很 多 时 候 都 满足 于 从 事理 
论 、 纸 笔 工 作 ， 但 在 贝尔 实验 室 的 氛围 则 不 一 样 。 研 究 人 员 正 在 寻找 实 
践 结果 ， 而 万 普 尼 元 最 终 决 定 将 其 想法 变 成 算法 。 在 几 年 时 间 内 ， 他 和 


贝尔 实验 室 的 同事 已 经 研发 出 文 持 癌 量 机 。 不 久之 后 ， 文 持 癌 量 机 就 变 
得 无 所 不 在 ， 并 创下 不 同 的 准确 度 纪录 。 


表面 上 看 ， 文 持 同 量 机 看 起 来 很 像 加 权 k 最 近邻 算法 : 正 类 别 与 负 
类 别 之 间 的 边界 由 一 组 例子 、 其 权 值 加 上 相似 性 测度 来 确定 。 测 试 实例 
会 归 入 正 类 别 ， 条 件 是 从 平均 水 平 上 看 ， 它 看 起 来 更 像 正面 例子 而 不 是 
负面 例子 。 平 均 数 会 被 加 权 ， 而 文 持 回 量 机 上 只 会 记 住 那些 用 于 确定 边界 
的 关键 例子 。 如 果 你 回头 看 Posistan 和 Negaland 的 例子 ， 一 旦 我 们 丢掉 那 
些 不 在 边界 上 的 城市 ， 剩 下 的 就 是 这 张 地 图 ( 见 图 7-3) 。 


这 些 例子 被 称 为 支持 癌 量 ， 因 为 它们 是 “ 文 撑 ”边界 的 向 量 : 移动 一 
个 回 量 ， 边 界 的 一 段 束 会 滑 回 其 他 不 同 的 地 方 。 你 也 许 还 会 注意 到 ， 边 
界 就 是 一 条 锯齿 状 的 线 ， 实 例 的 确切 位 置 会 决定 突然 出 现 的 抛 角 。 真 实 
的 概念 趋向 于 拥有 更 加 平缓 的 边界 ， 这 意味 着 最 近邻 算法 的 估算 可 能 不 
理想 。 但 有 了 文 持 疝 量 机 ， 我 们 就 可 以 掌握 平缓 的 边界 ， 看 起 来 更 像 图 
7-—4。 


Positiville 


一 


Positiville 一 


图 7-4 


为 了 学 习 文 持 同 量 机 ， 我 们 需要 选择 同 量 和 它们 的 权 值 。 相 似 性 度 
量 ， 在 文 持 向 量 机 领地 被 称 为 “核心 程序 ”， 通 常 被 归 为 先 验 性 。 万 普 尼 
元 的 一 个 重要 观点 就 是 ， 并 不 是 所 有 将 正面 训练 例子 从 负面 训练 例子 分 
离 出 来 的 边界 都 是 平等 的 。 假 设 Posistan 和 Negaland 发 生 战 争 ， 它 们 之 间 
阳 着 无 人 区 ， 两 边 都 是 布雷 区 。 你 的 任务 就 是 调查 无 人 区 ， 从 无 人 区 的 


这 头 走 到 那 头 ， 不 能 踩 到 任何 地 雷 。 幸 运 的 是 ， 你 有 一 张 地 图 ， 告 诉 你 
地 雷 都 埋 在 哪里 。 显 然 ， 你 不 会 走 旧 路 线 : 你 会 假设 地 雷 可 能 在 的 位 置 
很 宽阔 。 这 就 是 文 持 癌 量 机 所 做 的 事 ， 实 例 相 当 于 地 雷 ， 要 掌握 的 边界 
相当 于 选择 的 路 线 。 边 界 距离 实例 最 近 的 地 方丈 是 它 的 安全 边际 ， 文 持 
器 量 机 选择 支持 癌 量 和 权 值 ， 这 些 向 量 和 权 值 能 够 产生 可 能 的 最 大 边 
际 。 例 如 ， 图 7-5 中 的 实 线 边 界 比 虚 线 要 好 。 


图 7 -5 


虚线 边界 能 够 较 好 地 将 正面 例子 和 负面 例子 分 离 ， 但 很 危险 的 是 ， 
它 关 点 接触 到 A 处 和 B 处 的 地 雷 。 这 些 例子 都 是 支持 问 量 : 删除 其 中 的 


一 个 ， 最 大 边际 边界 就 会 移 到 不 同 的 地 方 。 通 常 ， 边 界 当 然 也 可 能 是 弯 
曲 的 ， 这 使 得 边界 更 加 难以 想象 ， 但 我 们 可 以 将 边界 想象 成 仆 向 无 人 区 
的 蛇 ， 边 际 表 示 这 条 蛇 可 能 有 多 肥 。 如 果 很 肥 的 蛇 能 够 一 直 蚁 昨 候 行 而 
不 会 被 地 雷 炸 得 粉碎 ， 那 么 支持 癌 量 机 束 可 以 很 好 地 将 正面 例子 和 负面 
例子 分 离 。 万 普 尼 死 表 明 ， 在 这 种 情况 下 ， 我 们 可 以 确信 ， 文 持 同 量 机 
不 会 过 拟 合 。 直 观 地 说 ， 和 一 条 瘦 的 蛇 相 比 ， 肥 的 蛇 能 够 不 触 雷 息 行 的 
方法 更 少 。 同 样 ， 和 低 边 际 的 支持 癌 量 机 相 比 ， 高 边际 的 残 不 太 可 能 因 
为 画 了 一 条 过 于 复杂 的 边界 而 过 拟 合 。 


事情 的 第 二 部 分 就 是 文 持 癌 量 机 如 何 找到 最 合适 的 蛇 ， 刚 好 夹 在 正 
面 雷 区 和 负面 雷 区 之 间 。 乍 一 看 ， 通 过 梯度 下 降 ， 为 每 个 训练 实例 掌握 
权 值 可 能 会 成 功 。 我 们 要 做 的 ， 束 是 找到 能 够 将 边际 最 大 化 的 权 值 ， 而 
那些 最 终结 果 为 0 权 值 的 例子 则 被 抛弃 。 不 六 的 是 ， 这 样 做 只 会 让 权 值 
不 受 限 制 地 增长 ， 因 为 从 数学 的 角度 讲 ， 权 值 越 大 ， 边 际 越 大 。 如 果 距 
离 地雷 只 有 1 英 乒 ， 然 后 你 将 所 有 东西 的 矿 二 都 扩大 一 倍 ， 包 括 你 目 
己 ， 你 现在 距离 雷 区 有 2 英 矿 ， 但 这 样 并 不 会 降低 你 踩 到 地 雷 的 可 能 
性 。 相 反 ， 我 们 得 在 限制 范围 内 将 边际 最 大 化 ， 该 范围 内 ， 权 值 乔 能 增 
长 到 东 个 固定 值 。 或 者 ， 同 样 的 效果 ， 我 们 可 以 在 限制 范围 内 将 权 值 最 
小 化 ， 该 范围 内 所 有 例子 都 会 有 一 个 给 定 的 边际 ， 该 边际 有 可 能 是 1 
一 一 人 确切 来 说 是 任意 的 。 这 就 是 通常 支持 癌 量 机 做 的 事情 。 


约束 优化 是 在 将 受 限 函 数 最 大 化 或 者 最 小 化 时 遇 到 的 问题 。 宇 宙 会 
最 大 化 燃 ， 而 烂 革 守 能 量 守恒 定律 。 这 类 问题 在 商业 和 技术 领域 会 经 常 
全 到 。 例 如 ， 我 们 可 能 会 想 把 工厂 生产 的 小 部 件数 量 最 大 化 ， 这 个 部 件 
的 数量 可 由 机 床 的 数量 、 小 部 件 的 规格 等 决定 。 有 了 文 持 疝 量 机 ， 约 束 
优化 对 机 器 学 习 来 说 也 会 变 得 重要 。 无 约束 优化 正在 登 上 顶峰， 而 这 就 
征 梯度 下 降 〈 或 者 ， 在 本 例子 中 为 上 升 ) 要 做 的 事情 。 约 束 优化 就 是 当 
你 停 在 公路 上 时 ， 尽 可 能 往 高 处 走 。 如 果 公 路 延伸 到 顶峰 ， 约 束 及 无 约 
束 问 题 的 解决 方法 残 会 一 样 。 即 便 如 此 ， 更 多 时 候 ， 公 路 弯 亚 曲 曲 围绕 
独 山 峰 ， 接 着 还 没 到 山顶 就 经 回来 了 。 你 知道 目 己 已 经 到 达 公 路 的 最 高 


扩 ， 因 为 在 不 脱离 公路 的 情况 下 ， 你 已 经 无 法 开 到 更 高 的 地 方 。 换 句 话 
说 ， 也 残 是 到 达 顶 点 的 路 线 与 公路 成 下 角 。 如 果 公 路 和 到 达 顶 点 的 路 线 
形成 斜 角 ， 那 么 沿 着 公路 开 远 些 ， 你 总 能 到 达 更 高 点 ， 即 使 那样 做 与 直 
线 到 达 峰 顶 相 比 ， 并 不 会 那么 快 。 因 此 ， 解 决 约束 优化 问题 的 方法 ， 不 
古 沿 厦 坡 面 走 ， 而 是 走 与 约束 面 平行 的 那 部 分 坡 面 (在 该 例子 中 为 公 
路 ) ， 然 后 当 该 部 分 为 零 时 ， 停 下 来 。 


通常 ， 我 们 得 一 次 性 处 理 许多 个 约束 条 件 〈 在 支持 向 量 机 的 情况 
下 ， 每 个 条 件 对 应 一 个 例子 ) 。 想 象 一 下 ， 你 想 尽 可 能 地 靠近 北极 ， 但 
你 不 想 离 开 目 己 的 房间 。 每 间 房 的 四 面 墙 就 是 一 个 限制 条 件 ， 而 解决 办 
法 就 是 要 跟着 指 商 针 下 到 你 碰 到 一 个 角落 ， 这 个 角落 是 东北 部 和 西北 部 
两 面 墙 的 汇合 把 。 我 们 说 这 两 堵 增 是 有 效 约 束 条 件 ， 因 为 它们 阻止 你 实 
现 最 佳 效 果 ， 也 就 是 北极 。 如 有 果 你 的 房间 有 一 堵 载 的 外 部 直面 北部 ， 那 
么 这 束 是 唯一 的 有 效 约 束 条 件 ， 而 解决 方法 就 在 于 这 墙 墙 中 间 的 一 个 
扩 。 如 果 你 是 圣诞 老人 ， 而 你 的 房间 已 经 处 在 北极 上 方 ， 而 所 有 的 约束 
条 件 都 无效， 那么 你 就 可 以 在 那儿 坐等 ， 仔 细 考 虑 玩具 的 最 优 分 配 问题 
旅行 推销 员 更 容易 将 其 与 圣诞 老人 比较 ) 。 在 支持 癌 量 机 中 ， 有 效 约 
束 条 件 就 是 支持 向 量 ， 因 为 它们 的 边际 已 经 是 经 允许 达到 的 最 小 值 ， 移 
动 边界 会 违背 一 个 或 多 个 限制 条 件 。 所 有 其 他 的 例子 都 不 相关 ， 而 且 它 
们 的 权 值 都 是 零 。 


在 现实 中 ， 我 们 通常 会 让 支持 问 量 机 违背 一 些 限 制 条 件 ， 这 残 意 味 
者 将 一 些 例 子 错误 分 类 ， 或 者 利用 更 少 的 边际 ， 人 否则 和 它们 融会 过 拟 合 。 
如 琳 在 正面 区 域 中 间 的 某 个 地 方 有 干扰 作用 的 负面 例子 ， 那 么 我 们 不 想 
让 边界 在 正面 区 域 周围 环 绕 ， 目 的 只 古 为 了 让 例子 正确 。 但 支持 向量 机 
会 因为 它 弄 错 的 每 个 例子 而 受到 惩 吉 ， 这 样 就 会 促使 它 把 错误 例子 降 到 
最 低 。 文 持 问 量 机 莽 像 《沙丘 》 中 的 沙 虫 : 大 而 强 韧 ， 可 以 在 爬 过 雷 区 
时 笠 免 于 几 次 但 不 是 很 多 次 爆炸 。 


四 处 寻找 应 用 的 同时 ， 万 普 尼 克 和 他 的 同事 很 快 偶然 发 现 了 手写 体 


数字 识别 ， 他 们 在 贝尔 实验 室 的 联结 学 派 同 事 就 是 研究 这 个 方面 的 专 

家 。 让 所 有 人 惊讶 的 是 ， 支 持 癌 量 机 和 感知 器 一 样 ， 在 其 他 领域 也 能 很 
好 地 工作 ， 感 知 器 多 年 来 已 经 被 精心 设计 用 于 数字 识别 。 这 为 两 者 持续 
时 间 长 、 波 及 范围 广 的 竞争 奠定 了 基础 。 支 持 向 量 机 可 以 当 作 感知 器 的 
一 个 概括 版 ， 因 为 当 你 利用 某 个 特定 的 相似 性 度量 时 ， 得 到 的 就 是 类 别 
之 间 的 超 平面 边界 (向 量 之 间 的 点 积 ) 。 但 和 多 层 感 知 器 相 比 ， 支 持 问 
量 机 有 一 个 重要 优势 : 权 值 有 单个 最 优 条 件 而 不 是 多 个 局 部 最 优 条 件 ， 
因此 可 靠 地 掌握 它们 变 得 简单 多 了 。 虽 然 如 此 ， 支 持 向 量 机 的 表现 力 依 
日 不比 感知 器 差 。 支 持 向 量 有 效 地 扮演 隐藏 层 的 角色 ， 而 它们 的 加 权 平 
均值 则 起 到 输出 层 的 作用 。 例 如 ， 一 台 支 持 疝 量 机 可 以 轻易 表示 XOR 也 | 
数 ， 方 法 就 是 为 4 个 可 能 的 配置 分 配 一 个 支持 向 量 ， 但 不 较量 一 下 ， 那 
些 联结 主义 学 者 便 不 会 罢休 。1995 年 ， 拉 里 :杰克 尔 ( 贝尔 实验 室 万 普 

尼 元 所 在 部 门 的 主任 ) 和 他 赌 一 顿 丰盛 的 大 餐 一 一 到 2000 年 ， 神 经 网 络 
就 会 和 文 持 向 量 机 一 样 好 理解 。 他 输 了 ， 但 作为 回报 ， 万 普 尼 区 打赌 

到 2005 年 就 没有 人 会 使 用 神经 网 络 ， 后 来 他 也 输 了 【唯一 吃 到 免费 
大 和 餐 的 是 燕 乐 存 ， 他 们 的 见证 人 ) 。 另 外 ， 随 着 深度 学 习 的 出 现 ， 联 结 
学 派 已 经 重新 占据 优势 。 只 要 你 能 掌握 它们 ， 含 有 多 层 的 网 络 可 以 比 文 
持 向 量 机 用 更 加 简洁 的 方式 来 表达 许多 函数 ， 而 支持 问 量 机 一 直 以 来 只 
有 一 层 ， 这 一 点 就 使 两 者 大 不 相同 。 


支持 向 量 机 早期 较 大 的 功绩 还 在 于 文本 分 类 ， 后 来 证 明 这 是 一 项 大 
实 患 ， 因 为 网 站 那 时 候 才 人气 渐 增 。 当 时 ， 村 素 贝 叶 斯 是 最 先进 的 文本 
分 类 器 ， 但 当 语 言 中 的 每 个 词 都 代表 一 个 维度 时 ， 甚 至 它 也 开始 过 拟 合 
了 。 它 需要 的 只 是 一 个 词 ， 这 个 词 会 侦 然 出 现在 训练 数据 中 所 有 与 体育 
相关 《〈 举 个 例子 ) 的 页 面 中 ， 而 不 是 出 现在 其 他 页 面 中 ， 而 朴素 贝 叶 斯 
开始 出 现 幻觉 ， 以 为 只 要 包含 该 词 的 页 面 都 是 体育 页 面 。 但 多 亏 了 边际 
最 大 化 ， 文 持 疝 量 机 即使 在 很 蜗 的 维度 中 也 可 以 抵抗 过 拟 合 。 


通常 ， 文 持 问 量 机 选择 的 支持 癌 量 越 少 ， 就 能 更 好 地 进行 概括 。 任 
何不 是 文 持 癌 量 的 训练 例子 可 能 会 被 正确 分 类 ， 条 件 是 它 显 示 为 测试 实 


例 ， 因 为 正面 和 负面 例子 之 间 的 边界 仍 在 同样 的 地 方 。 因 此 预测 支持 问 
量 机 的 误差 率 ， 最 多 就 是 支持 向 量 的 那 部 分 例子 。 随 着 维 数 的 上 升 ， 这 
部 分 也 会 上 升 ， 因 此 支持 向 量 机 无 法 幸免 于 维 数 灾难 ， 但 它们 最 能 抵抗 
这 个 灾难 。 


除了 实践 中 的 功绩 ， 文 持 向 量 机 还 完全 改变 了 许多 机 器 学 习 中 的 传 
统 观点 。 例 如 ， 捷 揭穿 了 “模型 越 简 单 就 越 准确 ”这 个 放言， 有 时 候 ， 这 
个 观点 会 被 误 以 为 是 奥 卡 姆 剃刀 理论 。 相 反 ， 支 持 向 量 机 可 能 有 无 限 数 
量 的 参数 ， 而 且 只 要 它 有 足够 大 的 边际 ， 就 不 会 过 拟 合 。 


然而 ， 文 持 癌 量 机 唯一 最 让 人 吃惊 的 属性 就 是 ， 无 论 它 形成 多 么 索 
曲 的 边界 ， 那 些 边 界 也 总 是 直线 〈 或 者 一 般 为 超 平 面 ) 。 这 并 不 矛盾 ， 
因为 十 线 存在 于 不 同 的 空间 中 。 假 设 例子 停 在 〈x，y) 的 平面 上 ， 而 正 
面 和 负面 区 域 之 间 的 边界 是 抛物 线 y=x2。 没 有 什么 方法 能 用 直线 来 表示 
它 ， 但 如 果 我 们 添加 坐标 z， 意 味 着 现在 数据 存在 于 x, y, z〉 空间 ， 然 
后 我 们 设 定 每 个 例子 的 z 坐 标 为 它 的 x 坐 标的 平方 ， 这 时 边界 就 是 由 y=z 
定义 的 斜 平面 。 实 际 上 ， 当 数据 点 上 升 至 三 维 空间 时 ， 有 些 数据 点 上 升 
的 数量 正 合适 ， 但 比 其 他 数据 点 上 升 的 要 多 ， 而 急 板 〈presto) 在 这 个 
新 维度 中 ， 正 面 例 子 和 负面 例子 可 能 会 被 一 个 平面 分 开 。 原 来 ， 我 们 可 
以 把 支持 向 量 机 利用 核心 程序 、 文 持 向 量 、 权 值 来 做 的 事情 ， 看 作 将 数 
据 上 映射 到 更 高 维 数 的 空间 中 ， 并 在 那个 空间 找到 最 大 边际 超 平 面 。 对 于 
一 些 核 心 程序 来 说， 衍生 空间 有 无 限 的 维 数 ， 但 文 持 问 量 机 完全 不 会 因 
此 而 受到 困扰 。 超 空间 可 能 是 过 渡 区 域 ， 但 文 持 疝 量 机 已 经 弄 明白 如 何 
操纵 它 。 


息 上 标 子 


两 个 东西 如 果 在 一 些 方面 意见 一 致 ， 那 么 它们 就 是 相似 的 。 如 果 它 


们 在 一 些 方面 意见 一 致 ， 可 能 在 其 他 方面 也 会 意见 一 致 ， 这 就 是 类 比 的 
本 质 。 它 还 表明 了 类 比 推理 中 的 两 大 子 问 题 ， 弄 明白 两 个 事物 的 相似 

度 ， 确 定 由 它们 的 相似 度 还 能 推导 出 什么 。 到 目前 为 止 ， 我们 已 经 探索 
了 了 类比“ 低 功 耗 ” 的 一 端 ， 包 含 诸如 最 近邻 和 支持 癌 量 机 之 类 的 算法 ， 在 
这 种 情况 下 ， 这 些 问题 的 答案 都 非常 简单 。 它 们 的 应 用 最 为 广泛 ， 但 只 
用 一 章 来 介绍 类 比 学 习 并 不 完整 ， 因 为 至 少 得 浏览 该 领域 更 为 强大 的 部 


LA 


O 


在 任何 类 比 学 习 算 法 中 ， 最 重要 的 问题 就 是 如 何 度量 相似 性 。 它 可 
以 如 数据 点 之 间 的 欧 几 里 得 距离 那么 简单 ， 也 可 以 和 含有 多 水 平子 程序 
的 一 整套 程序 那么 复业， 而且 这 些 子 程序 的 最 终 产 出 是 相似 度 值 。 不 管 
怎样 ， 相 似 度 函数 控制 的 是 学 习 算 法 如 何 从 已 知 例子 归纳 出 新 的 例子 。 
我 们 将 自己 对 问题 域 所 了 解 的 东西 插入 学 习 算 法 中 ， 这 束 变 成 类 推 学 派 
对 于 休 谍 问题 的 回答 。 我 们 可 以 将 类 比 学 习 应 用 到 所 有 种 类 的 物体 中 ， 
而 不 仪 仅 是 属性 向 量 ， 只 要 我 们 有 上 度量 它们 之 间 相 似 度 的 方法 。 例 如 ， 
我 们 可 以 通过 两 个 分 子 之 间 包 含 相同 子 结构 的 数量 ， 来 测量 两 个 分 子 的 
相似 度 。 甲 烷 和 甲醇 相似 ， 因 为 它们 都 有 三 个 碳 氢 键 ， 而 不 同 点 仅 在 于 
一 个 氧 原子 代 蔡 了 一 个 羟基 〈 见 图 7-6) 。 
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然而 ， 这 并 不 意味 着 它们 之 间 的 化 学 行为 是 相似 的 。 甲 烷 是 气体 ， 
而 甲醇 是 酒精 。 类 比 推理 的 第 二 部 分 ， 就 是 弄 明 白 在 已 经 发 现 的 相似 点 


的 基础 上 ， 如 何 推导 出 新 的 东西 。 这 可 以 很 简单 ， 也 可 以 很 复杂 。 在 最 
近邻 算法 或 者 文 持 同 量 机 中 ， 这 点 包括 在 最 近邻 算法 或 者 文 持 同 量 类 别 
的 基础 上 ， 预 测 新 东西 的 类 别 。 但 在 案例 推理 (类 比 学 习 的 男 外 一 种 类 
型 ) 中 ， 输 出 的 可 能 是 由 检索 对 象 组 成 部 分 形成 的 复杂 结构 。 假 设 你 的 
惠普 打印 机 吐出 没 用 的 东西 ， 你 会 打 电 话 给 求助 台 。 他 们 之 前 很 有 可 能 
已 经 遇 到 过 很 多 次 你 这 样 的 问题 ， 所 以 好 办 法 就 是 找到 那些 记录 ， 然 后 
从 这 些 记 录 中 找到 可 能 解决 你 的 问题 的 方法 。 这 不 只 是 找到 与 你 的 问题 
有 许多 相似 之 处 的 投诉 那么 简单 : 例如 ， 和 你 的 打印 机 一 起 使 用 的 是 
Windows 系 统 ， 还 是 Mac OS X? 这 可 能 会 引起 系统 的 不 同 设置 ， 打 印 机 
也 会 变 得 相关 。 一 旦 你 找到 最 相关 的 例子 ， 解 决 你 的 问题 所 需 步 又 的 顺 
序 ， 可 能 是 不 同 案 例 中 不 同步 又 的 组 合 ， 可 能 还 会 针对 你 的 问题 进一步 
微调 。 


求助 台 是 当今 条 例 推理 最 受 欢 迎 的 应 用 。 多 数 求 助 台 仍 采用 人 力 中 
介 ， 但 正果 诊疗 软件 IPsoft 的 虚拟 求助 台 员 工 伊 丽 水 则 与 顾客 直接 对 
话 。 伊 丽 莎 配 有 交互 式 视频 人 物 角 色 ， 迄 今 已 经 为 2000 多 万 的 顾客 解决 
问题 ， 这 些 问 题 大 部 分 来 自 一 流 的 美国 公司 。“ 来 自 机 费 人 王国 
CRobotistan ) 的 问候 ， 外 包 最 实惠 的 新 选择 ”是 近来 外 包 博 客 对 它 的 评 
价 。 而 且 ， 正 如 外 包 在 不 断 仆 拉 能 这 架 梯 子 ， 类 比 学 习 也 是 如 此 。 第 一 
个 以 判例 为 基础 、 为 指定 判决 辩论 的 机 器 人 律师 已 经 诞生 。 这 样 的 系统 
能 够 准确 预测 超过 90% 经 其 审核 的 商业 秘密 案件 。 也 许 在 未 来 的 网 络 法 
院 中 ， 亚 马 逊 云 服 务 上 的 茶 处 ， 在 开 寿 期间， 机 需 人 律师 会 推翻 机 械 战 
警 给 你 的 无 人 驾驶 汽车 开 出 的 六 单 ， 当 你 走 到 沙滩 上 时 ， 羔 布 尼 次 将 所 
有 辩论 简化 为 计算 的 梦想 最 终 会 实现 。 


可 以 说 ， 站 在 技能 这 架 梯 子 更 高 处 的 是 首 乐 创作 。 大 卫 : 科 普 是 加 
州 大 学 圣 殉 鲁 斯 分 校 的 名 誉 教授 ， 他 设计 出 一 种 算法 ， 能 够 通过 选择 并 
重组 著名 作曲 家 作品 中 的 一 些 片段 ， 创 造 出 市 有 这 些 作曲 家 风格 的 新 的 
音乐 。 我 在 几 年 前 参加 过 的 一 个 会 议 上 ， 他 演 和 到 了 “莫扎特 ”的 三 个 片 
段 : 一 段 来 自 真 正 的 莫扎特 ， 一 段 出 自信 类 作曲 家 模仿 的 莫扎特 ,一段 


来 自 他 自己 的 系统 。 然 后 他 让 听众 为 真正 的 莫扎特 投票 。 沃 尔 夫 囚 胜出 
了 ， 但 计算 机 打败 了 人 类 模仿 者 。 这 是 一 场 人 工 智 能 会 议 ， 听 众 们 感到 
非常 喜悦 。 在 其 他 项 目 中 则 没有 那么 开心 了 ， 一 位 听众 惯 低 地 控诉 科 
普 ， 说 他 磺 掉 了 他 的 音乐 。 如 果 科 普 是 对 的 ， 创 造 性 (最 深 不 可 测 的 东 
西 ) 都 可 以 归结 为 类 比 和 重组 。 你 可 以 通过 谷歌 搜索 “david cope 
mp3” 来 自行 判断 。 


然而 ， 类 比 学 者 了 最 棒 的 技巧 在 于 跨越 问题 域 来 进行 学 习 。 人 类 一 直 
在 做 这 件 事 情 ， 比 如 一 位 高 管 可 以 从 一 家 媒体 公司 跳槽 到 另 一 家 消费 品 
公司 ， 而 不 用 从 零 开 始 ， 因 为 许多 相同 的 管理 技能 仍然 适用 。 华 尔 街 雇 
用 很 多 物理 学 家 ， 因 为 物理 和 金融 问题 虽然 表面 上 看 区 别 很 大 ， 却 往往 
包含 相似 的 数学 结构 。 然 而 ， 假 如 我 们 对 目前 为 止 见 过 的 学 习 算 法 进行 
训练 ， 让 它们 预测 布 开 运动， 然后 对 股市 进行 预测 ， 那 么 这 些 算法 将 无 
法 达到 预期 效果 。 上 股票 价格 和 芒 浮 在 液体 中 的 粒子 的 速度 只 是 不 同 的 变 
量 ， 所 以 学 习 算 法 甚至 不 知道 从 何 开始 。 但 利用 构造 映射 ， 类 比 学 者 可 
以 完成 这 件 事 ， 这 是 戴 德 瑞 : 根 特 纳 《西北 大 学 的 一 位 心理 学 家 ) 发 明 
出 的 算法 。 结 构 映 射 及 用 两 种 插 述 方法 ， 发 现 了 它们 茶 些 部 分 和 关系 的 
一 致 对 应 关系 ， 然 后 基于 这 种 对 应 关系 ， 进 一 步 将 一 个 结构 中 的 属性 转 
移 到 为 一 个 结构 中 。 例 如 ， 如 果 是 太阳 系 和 原子 的 结构 ， 我 们 可 以 将 行 
星 映射 为 电子 ， 将 太阳 映射 为 原子 核 ， 并 和 玻 尔 一 样 得 出 结论 ， 认 为 电 
子 围绕 原子 核 旋转 。 当 然 ， 真 理会 更 加 微妙 ， 而 往往 我 们 做 出 类 比 之 
后 ， 又 得 重新 定义 它们 。 但 能 像 这 样 从 单个 例子 中 学 习 ， 当 然 是 通用 学 
习 算 法 的 一 个 关键 属性 。 当 我 们 与 一 种 新 的 瘤 症 做 斗争 时 ， 这 样 的 事 一 
直 在 发 生 ， 因 为 瘤 症 会 不 断 变异 ， 我 们 为 之 前 的 算法 掌握 的 模型 将 不 再 
适用 。 我 们 也 没有 时 间 从 大 量 病人 中 收集 关于 新 型 交 症 的 数据 ， 也 许 只 
有 一 个 病人 ， 而 他 也 需要 救治 。 那 么 我 们 最 大 的 希望 就 是 ， 将 新 型 癌症 
与 已 知 瘤 症 进行 对 比 ， 然 后 努力 找到 另外 一 种 癌症 ， 它 与 此 种 瘤 症 的 行 
为 足够 相似 ， 那 么 一 些 相同 的 疗法 就 会 起 作用 。 


有 类 比 无 法 做 到 的 事 吗 ? 道格拉斯 ' 霍 夫 斯 泰 特 认为 没有 ， 他 是 一 


位 认 知 科学 家 ， 还 是 《 哥 德 尔 、 艾 舍 尔 、 巴 赤 : 集 异 壁 之 大 成 》 的 作 
者 。 霍 夫 斯 泰 特 看 起 来 有 点 像 格林 奇 的 双胞胎 兄弟 ， 可 能 是 世界 上 最 著 
名 的 类 比 学 者 了 。 在 《表面 与 本 质 : 类 比 作 为 思维 的 燃料 和 火焰 》 一 书 
中 ， 霍 夫 斯 素 特 和 他 的 合作 者 伊 受 纽 尔 : 桑 德尔 激烈 地 和 争论， 认为 所 有 
智能 行为 都 可 以 归结 为 类 比 。 我 们 学 习 或 者 发 现 的 每 样 东 西 ， 从 日 第 词 
语 如 “妈妈 ”和 “ 玩 机 ”的 售 义 ， 到 诸如 阿尔 伯 特 : 爱 因 斯 坦 、 埃 所 里 斯 特 : 
伽 罗 瓦 这 些 天 才 尺 人 的 洞察 力 ， 这 些 必 是 类 比 应 用 于 实践 中 的 结果 。 妆 
小 带 姆 看 到 妇女 像 他 妈妈 照顾 他 一 样 照顾 其 他 孩子 时 ， 它 概括 了 “ 妈 
妈 ” 的 概念 来 指 其 他 人 的 妈妈 ， 而 不 只 他 的 妈妈 。 这 反 过 来 义 是 一 个 跳 
板 ， 用 来 理解 诸如 “ 母 舰 * 和 “大 目 然 ”等 东西 。 爱 因 斯 坦 的 “最 快乐 思 
想 ”〈 该 思想 还 衍生 了 广义 相对 论 ) ， 就 是 重力 与 加 速度 之 间 的 类 比 : 
如 果 你 是 一 台 升 降 机 ， 你 无 法 判断 你 的 重量 是 因为 这 个 还 是 那个 而 产 
生 ， 因 为 它们 的 效果 是 一 样 的 。 我 们 在 类 比 的 广阔 海洋 里 授 游 ， 我 们 目 
己 会 操纵 ， 但 无 意 间 也 会 被 操纵 。 书 中 的 每 页 都 会 包含 类 比比 如 本 市 
的 标题 ， 或 者 前 一 节 的 标题 。《 哥 德尔 、 艾 舍 尔 、 巴 赫 》 是 哥 德 尔 定 
理 、 艾 舍 尔 艺术 、 巴 攻 首 乐 的 一 个 延伸 类 比 。 如 果 终 极 算法 不 是 类 比 ， 
那么 它 肯 定 就 是 和 类 比 相似 的 东西 。 


起 床 啦 


认 知 科学 见证 了 符号 学 派 与 类 推 学 派 之 间 很 长 一 段 时 间 的 争论 。 符 
号 学 派 指向 他 们 能 够 模仿 但 类 推 学 派 无 法 模仿 的 东西 ， 接 着 类 推 学 派 弄 
明白 如 何 做 到 这 一 点 ， 然 后 想 出 他 们 能 够 模仿 但 符号 学 派 无 法 模仿 的 东 
西 ， 这 个 循环 一 直 重 复 下 去 。 基 于 实例 的 学 习 一 一 有 时 人 们 这 样 称呼 
它 ， 应 该 更 有 利于 模仿 我 们 如 何 记 住 生活 中 的 特定 片段 ， 规 则 是 包含 抽 
象 概念 《如 “工作 *“ 爱 *) 推理 的 假定 选择 。 但 我 在 读 研究 生 时 ， 觉 得 这 
两 者 真 的 只 是 连续 区 间 中 的 点 ， 而 我 们 应 该 能 够 掌握 它 的 所 有 方面 。 实 


际 上 ， 规 则 惑 是 概括 的 实例 ， 这 种 情况 下 我 们 已 经 < 瑟 记 ”一 些 属 性 ， 因 
为 它们 并 不 重要 。 相 反 ， 实 例 则 是 非常 特殊 的 规则 ， 每 种 属性 都 会 有 一 
个 条 件 。 在 我 们 的 一 生 中 ， 相 似 的 片段 会 渐渐 被 抽象 成 基于 规则 的 结 

构 ， 比 如 “在 餐馆 吃饭 ”。 你 知道 去 餐馆 会 涉及 从 沫 单 里 点 染 和 给 小 费 ， 

而 每 次 你 出 去 吃饭 的 时 候 ， 都 会 遵守 这 些 “ 行 为 准则 ”， 但 你 可 能 不 记得 
目 己 意识 到 这 些 准则 时 的 第 一 家 餐厅 。 


在 博士 论文 中 ， 我 设计 了 一 种 算法 ， 以 这 种 方式 来 将 基于 实例 的 学 
习 和 基于 规则 的 学 习 结 合 起 来 。 一 条 规则 不 会 只 和 满足 它 所 有 先决 条 件 
的 实体 匹配 ， 与 任何 其 他 规则 比 ， 它 会 与 其 更 加 相似 的 实体 匹配 。 在 这 
个 意义 上 讲 ， 它 会 更 接近 于 满足 它 的 条 件 。 例 如 ， 胆 固 醇 浓度 为 220 毫 
克 / 分 升 的 人 ， 会 比 浓 度 为 200 毫 殉 / 分 升 的 人 更 加 符合 以 下 规则 : 如 果 胆 
固 醇 浓 度 超过 240 介 克 /分 升 ， 你 会 有 心脏 病 发 作 的 风险 。RISE 是 我 称呼 
该 算法 的 名 字 ， 通 过 以 每 个 训练 实例 作为 开始 来 学 习 ， 然 后 渐渐 概括 每 
个 例子 ， 以 吸收 最 近 的 例子 。 最 终 的 结果 通常 是 通则 的 结合 ， 这 些 通 则 
会 在 它们 之 间 和 多 数 例 子 匹配 ， 越 来 越 多 的 特殊 规则 用 来 将 例外 规则 与 
那些 规则 匹配 ， 直 到 到 达 特 定 记 忆 的 “长 尾 " 上 。RISE 比 当时 最 好 的 规则 
和 实例 学 习 算法 预测 得 还 要 准确 ， 而 我 的 实验 也 表明 ， 准 确 地 说 ， 这 是 
因为 它 结合 了 两 者 的 最 佳 特 征 。 规 则 可 以 类 推 地 进行 匹配 ， 所 以 它们 不 
会 再 那么 脆弱 。 实 例 可 以 选择 空间 中 不 同 区 域 的 不 同 特点 ， 然 后 比 最 近 
邻 算法 更 能 与 维 数 灾难 相 抗衡 ， 而 最 近邻 算法 只 能 到 处 选择 相同 的 特 
征 。 


RISE 是 通 往 终 极 算 法 的 一 个 步 又， 因为 它 将 符号 与 类 比 学 习 结合 起 
来 了 。 然 而 这 只 是 小 小 的 一 步 ， 因 为 它 不 具备 这 两 个 范式 的 全 部 能 
仍 缺 少 其 他 三 个 范式 的 能 力 。RISE 的 规则 无 法 以 不 同 的 方式 连接 起 来 ， 
每 个 规则 只 能 直接 从 其 属性 中 预测 例子 的 类 别 。 另 外 ， 这 些 规则 无 法 一 
次 讨论 一 个 以 上 的 实体 ， 例 如 ，RISE 无 法 表达 这 样 的 规则 : 如 果 A 得 了 
感冒 ， 而 B 与 A 有 接触 ， 那 么 B 也 可 能 会 得 感冒 。 在 类 比 这 边 ，RISE 仅 
仅 概 括 了 简单 的 最 近邻 算法 ， 它 无 法 利用 结构 映射 或 者 某 个 这 样 的 策略 


来 进行 跨 域 学 习 。 在 完成 博士 论文 时 ， 我 找 不 到 能 够 为 一 种 算法 带 来 所 
有 5 个 范式 能 力 的 方法 ， 然 后 我 把 这 个 问题 丢 在 一 边 一 段 时 间 。 但 当 我 
把 机 器 学 习 应 用 到 诸如 口碑 和 营销、 数据 集成 事例 纺 程 、 网 站 个 性 化 等 
问题 中 时 ， 我 不 断 发 现 ， 每 个 这 样 的 范式 只 提供 了 一 部 分 解决 办 法 。 我 
相信 应 该 有 更 好 的 方法 。 


至 此 ， 我 们 已 完成 了 对 5 个 学 派 的 介绍 ， 同 时 集中 了 他 们 的 观 后 、 
议定 它们 的 界限 、 探 索 了 这 些 雁 片 如 何 拼凑 在 一 起 。 我 们 现在 知道 的 东 
西 比 一 开始 多 得 多 ， 但 还 有 一 些 东 西 没有 找到 。 在 这 个 谜 题 的 中 心 有 一 
个 很 大 的 漏洞 ， 使 人 难以 看 到 其 模式 。 问 题 在 于 ， 目 前 为 止 ， 我 们 见 过 
的 所 有 学 习 算 法 ， 需 要 一 位 老师 来 告诉 它们 正确 答案 。 它 们 不 会 从 健康 
细胞 中 区 分 出 瘤 细胞， 除非 有 人 将 这 些 细胞 标记 为 " 剖 细 胞 ?或 者 “健康 
细胞 ”。 人 关 会 无 师 目 通 ， 从 出 生 那 天 开始 ， 就 已 经 这 么 做 了 。 正 如 
《指环 王 》 中 站 在 魔 多 大 门 的 弗 罗 多 那样 ， 如 果 无 法 在 这 个 障碍 附近 找 
到 出 路 ， 那 么 我 们 的 长 途 旅 行将 至 无 意义 。 有 一 条 路 可 以 罕 越 壁垒 和 层 
层 守 卫 ， 胜 利 越 来 越 近 。 跟 我 来 .…… 


第 八 章 
无 师 目 通 


如 果 你 是 家 长 ， 在 你 孩子 长 到 3 多 这 段 时 间 ， 关 于 学 习 的 整个 奥秘 
会 在 你 眼前 揭 开 。 新 生 儿 无 法 说 话 、 走 路 、 识 别 物体 ， 甚 至 不 知道 ， 当 
他 看 不 到 某 个 东西 时 ， 它 仍然 存在 。 但 一 个 月 又 一 个 月 过 去 ， 大 步 小 步 
回 前 走 ， 经 过 不 断 摸索 ， 终 于 取得 概念 理解 上 的 大 进步 ， 孩 子 终于 理解 
世界 如 何 运转 、 人 们 如 何 行事 ， 以 及 如 何 进 行 沟通 。 孩 子 过 了 3 岁 生 
日 ， 所 有 这 些 学 习 行为 束 会 聚合 成 稳定 的 状态 ， 即 一 种 贯穿 我 们 一 生 的 
意识 流 。 较 大 的 孩子 和 成 年 人 可 以 进行 时 空 旅行 ， 也 就 是 记 住 过 去 的 
事 ， 但 也 只 能 回忆 到 3 岁 的 事 。 如 末 我 们 能 重新 回忆 凤 儿 和 踏 呈 学 步 时 
期 的 自己 ,然后 从 新 生 儿 的 角度 看 待 这 个 世界 ， 那 么 许多 关于 学 习 的 疑 
问 ， 甚 至 关于 存在 本 喘 ， 都 会 突然 变 得 清晰 明明 。 但 实际 上 ， 宇 宙 中 最 
大 的 奥秘 并 不 在 于 它 如 何 开始 和 灭亡 ， 或 者 又 是 由 怎样 无 穷 细 的 线 编织 
而 成 ， 而 在 于 幼小 孩子 的 大 脑 里 正在 发 生 什么 : 一 磅 的 胶 状 物 如 何 变 成 
意识 的 所 在 处 。 


对 于 儿童 学 习 的 科学 研究 尚 不 成 熟 ， 几 十 年 前 才 正 式 开始 ， 却 已 经 
研究 得 很 深入 。 坚 儿 无 法 填写 问 匈 或 者 遵守 实验 规划， 但 我 们 可 以 推 叶 
出 关于 他 们 大 脑 活动 的 、 让 人 和 慰 讶 的 数量 ， 方 法 就 是 在 实验 过 程 中 ， 对 
他 们 的 反应 进行 录制 并 研究 。 连 贯 的 图 片 就 出 现 了 : 页 儿 的 大 脑 不 仅 能 


揭 开 一 项 预 设 的 基因 程序 ， 或 者 是 用 于 记录 感 测 数据 中 相互 关系 的 生物 
装置 ， 还 可 以 积极 整合 他 们 目 身 的 实际 情况 ， 这 种 情况 会 随时 间 发 生 箱 
底 改变 。 


渐渐 地 ， 与 我 们 最 为 相关 的 认 知 科 学 家 以 算法 的 形式 来 表达 关于 儿 
童 学 习 的 理论 。 许 多 机 需 学 习 研 究 人 员 由 此 得 出 灵感 : 我 们 需要 的 一 切 
都 存在 于 孩子 的 大 脑 中 ， 如 宋 能 用 编码 的 形式 来 获取 其 精华 就 好 了 。 一 
些 研 究 人 员 甚 至 认为 ， 创 造 乔 能 机 器 的 方法 ， 惑 是 要 造 出 一 个 机 器 届 
儿 ， 让 它 像 人 类 公 儿 那样 去 体验 世界 ， 研 究 人 员 束 是 它 的 父母 〈 甚 至 可 
能 还 会 有 来 自 众 包 的 协助 ， 赋 予 “ 地 球 村 ”这 个 术语 以 全 新 的 含义 ) 。 小 
罗 比 ， 我 们 就 这 么 叫 它 吧 《 为 了 回 《 花 忌 星 球 》 中 胖乎乎 且 高 大 的 机 器 
人 致敬 ) ， 是 我 们 造 出 的 唯一 的 机 器 人 屡 儿 。 一 旦 它 学 会 3 岁 小 孩 都 知 
道 的 事情 ， 那 么 人 工 留 能 的 难题 就 得 到 解决 了 。 我 们 可 以 把 它 脑子 里 的 
内 容 复 制 到 其 他 机 费 人 中 ， 想 复制 几 个 都 可 以 ， 这 样 最 困难 的 工作 就 完 
成 了 。 


当然 ， 问 题 在 于 罗 比 出 生 时 ， 脑 子 里 该 运行 哪 种 算法 。 受 到 儿童 心 
理学 影响 的 研究 人 员 会 看 不 惯 神经 网 络 学 ， 因 为 一 个 神经 元 的 微型 运作 
与 孩子 最 基本 行为 的 复杂 度 也 相差 十 万 八 千里 ， 这 些 行为 包括 伸手 去 拿 
东西 、 抓 住 东西 ， 然 后 睁 大 眼睛 好 奇 地 观察 它 。 我 们 需 以 更 抽象 的 水 平 
来 模拟 儿童 的 学 习 ， 以 免 只 见 树木 、 不 见 和 森林 。 首 先 ， 虽 然 孩 子 理 所 当 
然 从 父母 那里 获得 了 许多 帮助 ， 但 很 多 时 候 他 们 是 在 没 人 监督 的 情况 下 
进行 目 学 ， 这 才 是 最 不 可 思议 的 地 方 。 目 前 为 止 ， 我 们 见 过 的 算法 还 无 
法 做 到 这 一 点 ， 但 我 们 会 发 现 有 几 种 算法 可 以 让 我 们 看 到 离 终极 算法 更 
进一步 了 。 


物 以 类 聚 ， 人 以 群 分 


我 们 轻 轻 按 下 “打开 ”按钮 ， 罗 比 的 视频 眼 第 一 次 睁 开 了 ， 但 马上 它 
就 淹没 在 威廉 :詹姆斯 令 人 记忆 深刻 的 所 谓 世 界 的 “杂乱 无 革 ” 中 。 随 大 
新 图 片 以 每 秒 几 十 张 的 速度 涌 入 视线 ， 它 必须 做 的 第 一 件 事 就 是 学 会 将 
这 些 图 片 组 织 成 更 大 的 图 片 块 。 真 实 的 世界 由 持续 存在 一 段 时 间 的 物体 
组 成 ， 而 不 是 由 从 这 一 刻 到 下 一 刻 随意 变换 的 像 系 组 成 。 妈 妈 走 开 时 ， 
她 还 是 她 ， 不 会 被 更 小 的 妈妈 代 蔡 。 把 一 个 盘子 放 在 果 上 ， 采 面 不 会 出 
现 白 色 的 洞 。 如 果 一 只 泰 迪 能 从 屏幕 里 经 过 ， 然 后 再 出 现时 变 成 一 架 长 
机 ， 那 么 幼小 的 砚 儿 不 会 对 此 感到 恢 讶 ;但 一 尹 小 孩 却 会 。 不 知 为 什 
么 ， 他 弄 明 白 了 泰 迪 能 和 飞机 不 一 样 ， 而 且 无 法 自行 转化 。 之 后 不 久 ， 
他 会 弄 明 白 有 些 物体 和 其 他 物体 更 像 ， 然 后 开始 进行 分 类 。 假 定 有 一 大 
堆 马 形 玩 倘 和 铅笔 可 以 玩 ，9 个 月 大 的 孩子 不 会 将 其 分 类 成 马 形 玩偶 和 
铅笔 两 个 范畴 ， 但 一 个 18 个 月 的 孩子 却 会 。 


将 世界 组 织 成 客体 和 类 别 ， 对 于 成 年 人 来 说 ， 这 是 第 二 天 性 ;对 于 
婴儿 来 说 却 不 是 ;对 于 机 右 人 罗 比 来 说 ， 更 没有 可 能 。 我 们 可 以 以 多 层 
感知 器 的 形式 赋予 它 视觉 皮质 ， 然 后 为 它 展示 分 类 好 的 世界 里 所 有 的 客 
体 和 类 别 的 例子 一 一 妈妈 走 近 了 ， 妈 妈 走 远 了 ， 但 我 们 绝 不 可 能 做 到 。 
我 们 需要 一 种 能 够 目 发 将 所 有 相似 物体 或 者 同一 物体 的 不 同 图 片 集中 起 
来 的 算法 。 这 束 是 聚 类 问题 ， 这 在 机 器 学 习 当 中 也 是 人 们 研究 最 多 的 主 


题 之 一 。 


一 个 集群 相当 于 一 组 相似 的 实体 ， 或 者 以 最 低 限度 来 说 ， 一 组 相似 
的 实体 之 间 的 相似 度 比 和 其 他 集群 中 的 组 成 部 分 的 相似 度 要 大 。 对 事物 
进行 聚 类 ， 这 是 人 类 的 天 性 ， 也 是 获取 知识 的 第 一 步 。 当 我 们 仰望 夜空 
时 ， 会 茶 不 住 去 看 星座 ， 然 后 根据 形状 来 为 其 命名 。 注 意 到 茶 些 元 系 组 
有 很 相似 的 化 学 属性 ， 这 是 发 现 元 系 周期 表 的 第 一 步 ， 那 些 相 似 元 素 现 
在 就 是 元 素 周期 表 中 的 一 列 。 我 们 察觉 到 的 一 切 就 是 一 个 集群 ， 从 朋友 
的 脸 到 说 话 声 。 没 有 这 些 ， 我 们 就 会 不 知 所 措 : 在 学 会 识别 组 成 语言 的 
独特 声音 之 前 ， 儿 童 无 法 学 习 语言 。 这 需要 他 们 在 一 岁 时 学 习 ， 而 且 如 
果 没 有 单词 指 代 的 真实 事物 群集 ， 他 们 学 习 的 所 有 单词 就 会 没有 意思 。 


面 对 大 数据 (大 量 的 事物 ) ,我 们 首先 采用 的 办 法 就 是 把 大 数据 分 成 大 
干 更 好 处 理 的 集群 。 比 如 ， 整 个 市 场 过 于 粗 化 ， 单 个 消费 者 又 过 于 细 

微 ， 因 此 市 场 营销 人 员 会 将 市 场 分 成 大 干部 分 ， 这 些 部 分 束 成 为 集群 。 
甚至 物体 本 喘 也 是 观 罕 的 确 层 集群 ， 从 由 不 同 角度 照射 到 妈妈 脸 上 的 光 
线 ， 到 宇 宝 听 到 的 关于 “妈妈 ”一 词 的 不 同 声波 。 没 有 物体 ， 我 们 就 无 法 
进行 思考 ， 也 许 这 也 是 量子 力学 如 此 非 直观 的 原因 : 我 们 想 把 亚 原子 世 
界 形象 化 ， 看 作 粒 子 碰 撞 或 者 波形 干扰 的 世界 ， 但 这 样 也 并 不 真实 。 


我 们 可 以 通过 集群 的 典型 元 素来 表示 该 集群 : 你 用 心灵 之 眼看 到 母 
杀 的 形象 ， 或 者 典型 的 猫 、 跑 车 、 郊 区 住宅 和 热 市 海滩 。 依 据 市 场 营销 
知识 ， 伊 利 诡 伊 州 的 皮 奥 瑞 亚 是 典型 的 美国 小 镇 。 饱 有劲 : 们 恩 斯 是 康 涅 
狄 格 州 温 德 姆 小 镇 的 一 名 房屋 维修 主管 ， 今 年 53 岁 ， 是 美国 最 普通 的 市 
民 一 一 如 果 你 相信 凯 文 : 奥 基 夫 《普通 美国 人 》 一 书 讲 的 是 对 的 ， 那 么 
至 少 是 这 样 的 。 任 何 由 数字 属性 描述 的 东西 ， 比 如 入 们 的 号 高 、 体 重 、 
围 度 、 鞋 码 、 头 发 长 度 等 ， 使 得 计算 平均 数 变 得 简单 : 他 的 吴 高 就 是 所 
有 集群 成 员 的 平均 喘 蜗 ， 他 的 体重 就 是 所 有 体重 的 平均 数 .…... 对 于 分 类 
属性 来 说 ， 比 如 性 别 、 头 发 颜色 、 邮 政 编 码 或 者 最 喜爱 的 运动 ，“ 平 
均 ? 就 是 出 现 频 率 最 高 的 值 。 这 组 属性 描述 的 普通 成 员 可 能 不 是 真实 存 
在 的 人 ， 但 不 管 怎 样 ， 它 是 十 分 有 用 的 参考 ; 如果 你 在 进行 头脑 风 骏 ， 
考虑 如 何 营销 新 产品 ， 把 皮 奥 瑞 亚 当 作 产品 发 布 的 地 点 ， 或 者 把 鲍 动 : 
伯 因 斯 当 作 目 标 客 户 ， 这 要 比 考 虑 “市 场 * 或 者 “消费 者 ”之 类 的 抽象 实体 


要 好 。 


尽管 这 样 的 平均 值 很 有 用 ， 但 我 们 可 以 做 得 更 好 。 的 确 ， 大 数据 和 
机 器 学 习 的 全 部 要 点 在 于 避免 粗糙 的 思考 。 我 们 的 集群 可 能 是 许多 人 组 
成 的 专业 性 很 强 的 组 ， 甚 至 是 同一 个 人 的 不 同方 面 : 爱丽 丝 买 工作 用 的 
书 、 体 闲 相关 的 书 ， 或 者 作为 圣诞 礼物 的 书 ;， 爱丽 丝 心情 好 ， 或 爱丽 丝 
心情 忧郁 。 亚 号 进 想 把 爱丽 丝 买 给 自己 的 书 和 送 给 男 朋友 的 书 区 分 开 
来 ， 因 为 这 样 可 以 使 它 在 恰当 的 时 间 做 恰当 的 推荐 。 不 生 的 是 ， 采 购 不 
会 贴 着 * 目 己 的 礼物 ”或 者 “ 鲍 肛 的 礼物 ”标签 ， 而 亚马逊 要 懂得 如 何 将 这 


些 进 行 分 类 。 


假设 罗 比 的 世界 中 的 实体 分 成 五 个 集群 人类、 家 具 、 玩 具 、 食 物 
和 动物 ) ， 但 我 们 不 知道 这 些 东 西 分 别 属于 哪个 集群 。 当 我 们 启动 罗 比 
时 ， 这 就 是 它 面 临 的 问题 类 型 。 将 实体 分 类 成 集群 的 一 个 简单 方法 ， 丈 
古 随 机 挑选 5 个 物体 作为 集群 典范 ， 再 利用 每 个 典范 来 对 比 每 个 实体 ， 
然后 将 其 分 到 最 相似 典范 的 集群 中 《正如 在 类 比 学 习 中 ， 相 似 度 测 量 的 
选择 很 重要 。 如 果 属 性 是 数值 型 的 ， 它 可 能 就 与 欧 几 里 得 距离 一 样 简 
单 ， 但 还 有 其 他 许多 选择 ) 。 这 时 我 们 就 需要 更 新 典范 。 毕 竞 ， 集 群 的 
典范 融 是 其 成 员 的 平均 化 ， 尽 管 当 每 个 集群 中 只 有 一 个 成 员 时 情况 也 征 
如 此 ， 但 通常 这 种 情况 不 会 出 现在 我 们 将 一 堆 新 成 员 加 入 每 个 集群 之 
后 。 因 此 对 每 个 集群 来 说 ， 我 们 先 计算 其 成 员 的 平均 特性 ， 然 后 将 其 当 
作 新 的 典范 。 这 时 ， 我 们 需要 再 更 新 集群 的 成 员 : 因为 典范 已 经 移 走 ， 
与 给 定 实体 最 接近 的 典范 可 能 也 已 经 改变 。 我 们 可 以 把 某 个 类 别 的 典范 
想象 成 一 只 泰 迪 熊 ， 把 兄 外 茶 个 类 别 的 典范 想象 成 一 根 香 焦 。 也 许 在 第 
一 轮 ， 我 们 会 把 动物 饼干 和 事 归 为 一 类 ， 但 在 第 二 轮 中 我 们 会 把 它 和 香 
震 归 为 一 类 。 最 初 动物 饼干 看 起 来 像 玩 具 ， 但 现在 它 看 起 来 更 像 食物 。 
一 旦 我 重新 将 动物 饼干 归 入 香 集 那 一 类 ， 也 许 那个 类 别 的 典型 项 也 已 经 
改变 ， 从 香 在 变 为 饼干 。 随 着 实体 被 分 到 越 来 越 恰当 的 集群 中 ， 这 个 民 
性 循环 会 继续 下 去 ， 直 到 实体 到 集群 的 分 配 不 再 发 生 改变 《因此 集群 典 
范 也 不 再 发 生 改 变 ) 。 


该 算法 被 称 为 k 均 值 算 法 〈k-means algorithm ) ， 它 的 起 源 可 以 追溯 
到 20 世 纪 50 年 代 。 它 精密 、 简 单 、 人 和 气 很 高 ， 但 有 几 个 不 足 ， 而 其 中 的 
一 些 问 题 和 其 他 问题 相 比 较 容易 解决 。 例 如 ， 我 们 要 提前 确定 集群 的 数 
量 ， 但 在 真实 世界 中 ， 罗 比 总 会 遇 到 新 类 型 的 物体 。 有 一 个 选择 ， 就 是 
如 果 某 物 与 其 他 现存 的 物体 凶 然 不 同 ， 那 么 就 让 物体 开局 新 的 集群 。 男 
外 一 个 选择 ， 就 是 允许 集群 分 裂 ， 然 后 随 着 我 们 前 进而 合并 。 不 论 哪 种 
方法 ， 我 们 都 会 想 让 算法 偶 回 选择 更 少 的 集群 ， 以 免 我 们 最 后 以 每 个 物 
体 作 为 自己 的 集群 而 结束 〈 如 果 我 们 想 让 集群 由 相似 物体 组 成 ， 这 很 难 


办 到 ， 但 显然 这 并 不 是 目标 ) 。 


有 一 个 更 大 的 问题 ， 那 就 是 k 均 值 算法 只 有 在 集群 易于 区 分 的 情况 
下 才能 起 作用 :在 超 空间 中 ， 每 个 集群 可 看 作 一 个 球 团 ， 每 个 团 距离 彼 
此 都 很 远 ， 而 它们 都 有 相似 的 体积 ， 并 包含 相近 数量 的 物体 。 如 果 其 中 
的 一 个 团 出 现 故 障 ， 不 好 的 事情 就 会 发 生 : 细 长 的 集群 会 分 成 两 个 不 同 
的 集群 ， 较 小 的 那个 集群 会 被 附近 更 大 的 集群 吸收 ， 以 此 类 推 。 羊 运 的 
是 ， 还 有 一 个 更 好 的 选择 。 


假设 我 们 确认 ， 让 罗 比 在 真实 世界 中 困 选 是 一 种 过 于 缓慢 、 有 麻烦 的 
学 习 方法 。 相 反 ， 就 像 飞 行 学 员 在 飞行 模拟 占 中 进行 学 习 一 样 ， 我 们 会 
让 罗 比 观看 计算 机 生成 的 图 片 。 虽 然 知 道 图 片 来 自 什 么 集群 ， 但 我 们 不 
会 告诉 罗 比 。 相 反 ， 我 们 生成 每 张 图 片 的 方法 ， 束 是 首先 要 随意 选择 一 
个 集群 (比如 说 玩具 〉 ， 然 后 综合 该 集群 中 的 一 个 例子 〈 毛 茸 昔 的 、 标 
色 的 小 泰 迪 有 一 双 黑 色 的 大 眼睛 、 圆 耳 和 打 ， 还 戴 着 蝴蝶 结 )。 我 们 还 是 
随意 选择 例子 的 属性 : 尺寸 来 自 一 个 正 态 分 布 的 均值 ， 比 如 10 瑞 寸 ， 毛 
是 柠 色 的 概率 为 80%， 否 则 就 为 白色 ， 以 此 类 推 。 当 罗 比 看 到 许多 图 片 
由 这 个 方法 生成 后 ， 它 应 该 学 会 将 它们 分 为 人 类 、 家 有 具 、 玩 具 等 类 别 
中 ， 因 为 人 类 和 家 具 相 比 ， 人 类 更 像 人 类 。 有 一 个 有 趣 的 问题 ， 如 果 我 
们 从 罗 比 的 角度 看 ， 它 发 现 集 群 的 最 佳 算 法 是 什么 ? 管 案 让 人 惊讶 村 
素 贝 叶 斯 算法 。 我 们 开始 了 解 该 算法 时 ， 它 是 监督 式 学 习 的 一 种 算法 。 
区 别 在 于 现在 罗 比 不 知道 类 别 ， 因 此 它 得 猜 这 些 东 西 。 


显然 ， 如 宋 罗 比 不 知道 它们 ， 事 情 就 会 一 帆 风 顺 ， 因 为 在 朴 系 贝 叶 
斯 算法 中 ， 每 个 集群 都 由 其 概率 〈179% 生 成 的 物体 都 是 玩具 ) 和 集群 成 
员 当 中 每 个 属性 的 概率 分 布 来 定义 (例如 ，80% 的 玩具 是 标 色 的 ) 。 罗 
比 可 以 估算 这 些 概 率 ， 只 要 数 清 数据 中 玩具 的 数量 ， 以 及 棕色 玩具 的 数 
量 等 。 为 了 做 到 这 点 ， 我 们 需要 知道 哪个 物体 是 玩具 。 这 看 起 来 很 环 
手 ， 但 最 后 发 现 我 们 已 经 知道 如 何 做 到 这 一 点 。 如 果 罗 比 有 一 个 朴素 贝 
叶 斯 算法 分 类 器 且 要 弄 明 白 新 物体 的 类 别 ， 它 要 做 的 束 是 应 用 分 类 器 ， 


然后 在 给 定 物体 属性 的 条 件 下 计算 每 个 类 别 的 概率 〈 小 小 的 、 毛 得 得 
的 、 棕 色 的 、 有 大 眼睛 、 戴 着 蝴蝶 结 ? 可 能 是 玩具 ， 也 可 能 是 动物 ) 。 


因此 罗 比 面临 的 是 鸡 和 重 的 问题 ， 如 果 它 知道 物体 的 类 别 ， 就 可 以 
通过 数 数 的 方式 来 掌握 类 别 的 模型 ， 如 果 它 知道 模型 ， 可 以 推 师 物体 的 
类 别 。 我 们 好 像 又 过 到 困难 了 ， 但 远 非 如 此 : 只 要 在 开始 时 ， 以 你 喜欢 
的 方式 来 猜测 每 个 物体 的 类 别 〈( 即 使 是 随机 的 )， 然 后 你 就 有 的 忙 了 。 
从 那些 类 别 和 数据 中 ， 你 可 以 掌握 类 别 模型 ， 在 这 些 模型 的 基础 上 ， 你 
可 以 重新 推导 类 别 ， 以 此 类 推 。 乍 一 看 ， 这 看 起 来 像 一 个 疾 狂 的 计划 : 
它 可 能 绝 不 会 结束 ， 而 是 处 在 由 模型 推 新 类 列 ， 到 由 类 别 推 产 模 型 的 永 
恒 循 环 中 。 即 使 它 停 止 了 ， 也 没有 理由 相信 会 停 在 有 意义 的 集群 上 。 但 
1977 年 ， 来 自 哈 佛 大 学 的 三 个 统计 学 家 【〈 亚 瑟 . 邓 普 斯 特 、 南 : 莱 尔 德 、 
唐纳德 : 鲁 宾 ) 表明 ， 这 个 疯狂 的 计划 其 实 可 以 生效 : 每 次 我 们 绕 着 圈 
走时 ， 集 群 模型 就 会 变 得 更 好 ， 而 当 模 型 是 可 能 性 的 一 个 局 部 最 大 值 
时 ， 循 环 结束 。 他 们 称 该 计划 为 期 望 最 大 化 演算 法 (Expectation 
Maximization，EM 算 法 ) ， 其 中 E 表 示 期 望 〈 推 新 预期 的 概率 ) ， 而 M 
代表 最 大 化 《估算 可 能 性 最 大 的 参数 ) 。 他 们 还 表明 ， 许 多 之 前 的 算法 
都 是 EM 的 特殊 情况 。 例 如 ， 为 了 掌握 隐 马 尔 科 夫 模 型 ， 我 们 交 丛 进行 
以 下 工作 : 推断 隐藏 状态 ， 在 此 基础 上 估算 过 度 和 观 穴 概 率 。 无 论 何 
时 ， 当 我 们 想 掌握 某 个 统计 模型 ， 但 又 缺乏 一 些 关 键 信息 时 《例如 ， 例 
子 的 类 别 ) ， 束 可 以 利用 EM。 这 使 它 在 所 有 机 器 学 习 中 成 为 最 受 欢 迎 
的 算法 。 


你 可 能 已 经 注意 到 k 均 值 算法 和 EM 之 间 的 某 个 相似 性 ， 因 为 它们 都 
交 丛 进行 两 项 工作 : 将 实体 分 配给 集群 ， 然 后 更 新 集群 的 描述 。 这 并 不 
是 一 场 意 外 : k 均 值 本 身 就 是 EM 的 一 种 特殊 情况 ， 当 所 有 属性 都 会 
有 “ 狭 罕 的 ” 正 态 分 布 时 《有 很 小 变量 的 正 态 分 布 ) ， 你 就 会 找到 它 。 当 
集群 重 登 很 多 时 ， 举 个 例子 ， 实 体 可 能 会 归属 于 概率 为 0.7 的 集群 A 和 概 
率 为 0.3 的 集群 B。 而 在 信息 不 丢失 的 情况 下 ， 我 们 无 法 决定 它 是 否 属于 
集群 A。EM 会 将 其 考虑 进来 ， 会 将 实体 分 配给 两 个 集群 ， 然 后 根据 依 


所 来 更 新 它们 的 描述 。 但 是 ， 如 果 描 述 非常 集中 ， 实 体 归 属于 附近 集群 
的 概率 也 总 接近 1， 而 我 们 要 做 的 就 是 将 实体 分 配给 集群 ， 以 及 对 每 个 
集群 中 的 实体 都 进行 平均 化 ， 以 获得 其 均值 ， 这 是 典型 的 k 均 值 算 法 。 


到 目前 为 止 ， 我 们 只 看 到 如 何 掌握 集群 的 一 个 水 平 。 当 然 ， 这 个 世 
界 要 丰富 得 多 ， 集 群 中 又 有 集群 ， 一 直到 单个 物体 : 活着 的 东西 聚 类 成 
植物 和 动物 ， 动 物 聚 类 成 为 哺乳 动物 、 马 类 、 鱼 类 等 ， 一 直到 宠物 和 家 
狗 。 没 问题 ， 一 旦 我 们 掌握 了 集群 组 ， 就 可 以 将 其 看 作物 体 ， 然 后 反 过 
来 对 其 进行 聚 类 ， 以 此 类 推 ， 直 到 对 所 有 东西 都 进行 聚 类 。 或 者 ， 我 们 
可 以 由 粗略 的 聚 类 作为 开始 ， 然 后 将 每 一 个 集群 分 成 亚 集 群 ， 如 罗 比 的 
玩具 被 分 成 填充 动物 玩具 、 组 闭 玩 具 等 ,填充 动 物 玩 具 又 可 分 为 泰 迪 
能 、 长 绒毛 小 猫 等 。 儿 童 似乎 会 从 中 间 开 始 ， 然 后 起 起 伏 伏 努 力 前 进 。 
例如 ， 他 们 在 学 习 “ 动 物 ” 或 者 “小 猎犬" 之 前 先 学 会 “ 狗 ” 这 个 词 ， 这 对 于 
罗 比 来 说 也 许 是 一 个 很 好 的 策略 。 


及 现 数据 的 形状 


数据 涌 入 罗 比 的 大 脑 ， 靠 的 是 它 的 直 党 ， 或 者 是 数 百 万 个 亚马逊 顾 
客 的 点 击 流 ， 将 大 量 实体 分 类 成 更 小 数量 的 集群 只 是 战役 的 一 半 ， 力 一 
半 则 会 缩短 每 个 实体 的 描述 。 罗 比 看 到 的 妈妈 的 第 一 张 照片 也 许 包含 
100 万 像素 ， 每 个 像素 都 有 自己 的 颜色 ,但 你 很 少 需要 100 万 个 变量 来 摘 
述 脸 部 。 同 样 ， 在 亚马逊 网 站 上 点 击 每 一 样 东西 ， 都 会 提供 关于 你 的 一 
点 信息 ， 但 亚马逊 真正 想 知道 的 是 你 喜欢 什么 、 不 喜欢 什么 ， 而 不 是 你 
扩 击 的 东西 。 前 者 非常 稳定 ， 在 后 者 中 可 能 会 有 乓 体现 ， 当 你 利用 网 址 
时 ， 后 者 会 毫 无 限制 地 增长 。 渐 渐 地 ， 所 有 这 些 鼠 标点 击 会 增加 对 你 的 
品位 的 了 解 ， 还 附 上 一 张 图 ， 与 那些 像素 聚集 起 来 ， 形 成 你 的 品位 的 大 
致 情况 ， 这 和 上 所 有 那些 像素 合 起 来 变 成 你 的 脸 是 一 个 道理 。 问 题 在 于 如 


何 添 加 。 


一 张 脸 大 约 有 50 块 肌肉 ， 因 此 50 个 数字 足以 用 来 描述 所 有 可 能 的 表 
情 ， 而 且 还 有 很 大 的 剩余 空间 。 眼 睛 、 鼻 子 、 嘴 巴 等 的 样子 (就 是 让 你 
区 分 于 别人 的 特点 ) 的 数量 也 不 应 该 超过 几 十 种 。 毕 竞 如 果 面 部 特点 只 
有 10 个 选择 ， 那 么 警察 局 的 拼图 师 就 能 大 概 描绘 出 疑犯 的 肖像 ， 足 以 用 
来 认 出 他 。 你 可 以 添加 几 个 数量 ， 用 来 确定 光线 和 姿态 ， 这 样 就 差不多 
了 。 因 此 如 果 你 给 我 100 多 个 数量 ， 就 已 经 足以 重新 构造 一 张 脸 部 图 
片 。 相 反 ， 罗 比 的 大 脑 应 该 可 以 储存 脸 部 图 片 ， 然 后 快速 简化 到 真正 起 
到 作用 的 100 个 数量 。 


机 器 学 习 算 法 称 该 过 程 为 维 数 约 简 ， 因 为 该 过 程 将 大 量 的 可 见 维度 
(像素 )〉 简化 成 几 个 隐 性 维度 《表情 、 面 部 特征 ) 。 维 数 约 简 对 于 应 对 
大 数据 《〈 像 每 秒 钟 通过 你 的 知觉 而 进入 的 数据 ) 来 说 很 关键。 一 张 图 可 
能 抵 得 上 1000 个 字 ， 但 要 处 理 和 记 住所 做 的 付出 ， 却 要 高 出 100 万 倍 。 
你 的 视觉 皮质 好 歹 把 大 数据 削减 为 数量 上 可 管理 的 信息 ， 足 以 用 来 引导 
这 个 世界 、 识 别人 和 物 、 记 住 你 看 见 的 东西 。 这 是 认 知 最 伟大 的 奇迹 之 
一 ， 并 且 如 此 自然 ， 你 甚至 意识 不 到 自己 正在 做 这 些 事 。 


当 你 整理 书柜 上 的 书 时 ， 会 把 类 似 的 书 放 在 一 起 ， 你 正在 做 一 种 维 
数 约 简 ， 从 广阔 的 主题 范围 到 一 个 维 数 的 书架 。 不 可 避免 的 是 ， 有 些 书 
密切 相关 ， 最 后 在 书架 上 却 离 得 很 远 ， 但 你 还 是 可 以 想 办 法 避免 这 样 的 
情况 再 次 发 生 。 这 残 是 维 数 约 简 算法 所 做 的 工作 。 


假设 我 给 你 加 利 福 尼 亚 州 由 罗 奥 多 市 所 有 店铺 的 GPS〈 全 球 定 位 系 
统 ) 坐标 ， 然 后 你 把 其 中 的 几 个 画 在 了 一 张 纸 上 〈 见 图 8-1) 。 


图 8 -1 


通过 看 图 8-1， 也 许 你 只 能 判断 由 罗 奥 多 市 的 一 条 街道 是 西南 一 东 
北 铝 。 虽 然 没 有 男 出 街道 ， 但 你 可 以 任 直 觉 知 道 它 就 在 那里 ， 因 为 所 有 
的 点 落 在 一 条 直线 上 《或 者 接近 这 条 直线 ， 可 能 在 街道 两 边 ) 。 的 确 ， 
这 条 街 是 大 学 街 ， 如 果 你 想 在 由 罗 奥 多 市 购物 或 吃饭 ， 可 以 去 那里 。 你 
一 旦 知道 大 学 街 上 的 店铺 ， 就 可 以 不 需要 两 个 数据 来 定位 它们 了 ， 只 要 
一 个 就 可 以 : 街道 编号 (或 者 ， 如 果 你 真 的 想 做 到 精确 ， 从 商铺 到 加 利 
福 尼 亚 站 的 距离 ， 在 西南 角 ， 此 处 正 是 大 学 街 的 起 后 〉。 


如 果 把 更 多 的 店铺 男 上 去 ， 你 可 能 会 注意 到 有 些 在 十 字 街 上 ， 距 离 
大 学 竺 有 点 距离 ， 还 有 几 个 完全 在 别处 〈 见 图 8-2) 。 


图 8 - 2 


虽然 如 此 ， 但 大 多 数 店铺 还 是 靠近 大 学 街 。 如 宁 只 给 你 一 个 数据 来 
确定 店铺 的 位 置 ， 那 么 店铺 到 加 利 福 尼 亚 站 的 沿街 距离 就 是 很 好 的 选 
择 : 走 了 那 段 距离 之 后 ， 往 周围 看 也 许 就 足以 找到 该 店铺 。 所 以 ， 你 
把 “ 帕 罗 奥 多 市 店铺 位 置 ” 的 维 数 由 二 减 到 一 。 


里 然 罗 比 没有 你 的 优势 (拥有 高 度 进化 的 视觉 系统 ) ， 但 如 果 你 想 
让 它 去 伊利 特 洗衣 店 取 洗 好 的 衣物 ， 你 只 要 允许 他 的 帕 罗 奥 多 市 地 图 有 
一 个 坐标 ， 它 就 可 以 用 一 种 算法 从 店铺 的 GPS 坐 标 中 “找到 ”大 学 街 。 完 
成 这 件 事 的 关键 在 于 要 注意 到 ， 如 果 把 x 和 y 坐 标的 原点 放 在 店铺 地 扣 的 


中 心 位 置 ， 然 后 慢 慢 地 旋转 坐标 轴 ， 当 旋转 大 约 60" 时 ， 店 铺 距 离 x 轴 最 
近 ， 此 时 x 轴 与 大 学 街 近乎 重合 〈 见 图 8-3) 。 


这 个 方 同 (人们 称 之 为 数据 的 第 一 主 成 分 ) 也 是 数据 传播 最 多 的 方 
回 《〈 请 注意 ， 如 果 你 将 商铺 投 在 x 轴 上 ， 在 图 8-3 的 右 图 中 它们 离 得 比 左 
图 中 的 要 远 ) 。 你 找到 第 一 主要 成 分 之 后 ， 可 以 找 第 二 个 ， 在 这 个 例子 
中 就 是 差别 最 大 、 与 大 学 街 成 直角 的 方 辐 。 在 地 图 上 ， 只 剩 下 一 种 可 能 
的 方向 《十 字 街 的 方向 ) 。 如 果 由 多 奥 多 市 在 山坡 上 ， 前 两 个 主要 成 分 
之 中 的 一 个 将 会 部 分 处 于 上 坡 位 置 ， 第 三 和 第 四 主要 成 分 可 能 就 悬 在 空 
中 。 我 们 可 以 将 同样 的 思想 应 用 到 几 千 个 或 者 几 百 万 个 维 数 中 ， 比 如 面 
部 图 片 ， 不 断 寻 找 最 大 兰 别 的 方向 ， 直 到 剩 下 的 变量 很 小 ， 这 时 我 们 才 
能 停 下 来 。 例 如 ， 在 图 8-3 中 旋转 坐标 轴 之 后 ， 多 数 商铺 的 y=0， 因 此 y 
的 均值 会 很 小 ， 而 我 们 不 会 因为 忽略 y 轴 的 坐标 而 丢失 过 多 的 信息 。 而 
且 如 果 我 们 决定 保留 y， 那 么 z 在 空中 ) 肯定 也 是 无 意义 的 。 结 果 就 
是 ， 寻 找 主要 成 分 的 整个 过 程 ， 可 以 利用 线性 代数 一 次 性 完成 。 首 先 ， 
几 个 维度 往往 会 造成 高 维度 数据 中 大 量 的 变异 。 虽 然 事实 并 非 如 此 ， 但 
果 住 前 两 三 个 维度 不 放 往 往 会 产生 许多 洞 见 ， 因 为 它 利用 了 你 视 党 系统 
的 强大 感知 力 。 


主要 成 分 分 析 (principle-component analysis，PCA) ， 正 如 人 们 对 
该 过 程 的 了 解 ， 是 科学 家 的 工具 箱 中 关键 的 工具 之 一 。 可 以 说 ，PCA 与 
无 人 监督 学 习 的 关系 ， 正 如 线性 回归 与 无 人 监督 多 样 性 之 间 的 关系 。 例 
如 ， 众 所 周知 的 全 球 变 暧 曲 棍 球 杆 曲线 ， 就 是 找到 各 类 温度 相关 数据 序 
列 《 树 的 年 轮 、 冰 已 等 ) 的 主要 成 分 并 假设 那 就 是 温度 的 结果 。 和 生物 学 
家 利用 PCA 来 将 几 和 于 个 不 同 的 基因 表达 水 平 概括 起 来 ， 变 成 几 条 途径 。 
心理 学 家 已 经 发 现 ， 个 性 可 以 简化 为 5 个 维度 (外 间 、 随 和 、 尽 员 、 神 
经 质 、 开 放 性 ) ， 他 们 可 以 通过 你 的 推送 文章 和 博客 帖子 来 进行 推断 
(黑猩猩 可 能 还 有 一 个 维度 一 一 反应 性 ， 但 推 特 数据 对 它们 并 不 适 
用 ) 。 把 PCA 应 用 到 国会 投票 时 ， 民 意 数据 显示 ， 与 普 衣 观点 相反 ， 政 
治 并 不 主要 是 自由 觉 与 保守 觉 之 间 的 竞争 。 相 反 ， 人 们 主要 在 两 个 维度 
上 存在 差别 : 一 个 是 经 济 问题 ， 一 个 是 社会 问题 。 我 们 一 方面 可 以 把 这 
些 和 党派 瓦解 变 成 单一 轴 ， 然 后 与 平民 主义 者 和 自由 论 者 混合 起 来 ， 这 两 
个 派别 会 处 于 两 个 极端 ， 这 样 束 创造 了 有 很 多 温和 派 位 于 中 间 的 假象 。 
试图 成 功 吸 引 他 们 不 太 可 能 。 另 一 方面 ， 如 有 末 上 自由 党 和 自由 论 者 消除 了 
对 对 方 的 厌恶 ， 那 么 他 们 束 可 以 在 社会 问题 上 进行 联盟 ， 在 这 些 问 题 
上 ， 双 方 都 文 持 个 人 自由 。 


当 罗 比 长 大 了 ， 可 以 利用 PCA 的 一 个 变量 来 解决 “鸡尾酒 会 问题 ， 
也 惑 是 从 嘲 杂 的 人 群 中 辨认 出 单个 声音 。 相 关 的 方法 可 以 帮助 它 掌 握 阅 
读 能 力 。 如 果 每 个 单词 就 是 一 个 维度 ， 那 么 在 话语 空间 中 ， 一 坊 文 草 惑 
古 一 个 点 ， 而 该 空间 的 主要 方 同 则 是 意思 的 成 分 。 例 如 ,， “奥巴马 总 
统 ” 和 “白宫 ”在 话语 空间 中 相距 很 远 ， 而 在 意义 空间 上 却 很 接近 ， 因 为 
这 两 个 词 可 能 会 出 现在 相似 的 背景 下 。 信 不 信 由 你 ， 计 算 机 就 需要 这 种 
类 型 的 分 析 来 对 SAT 美国 学 术 能 力 测 验 〉 文章 进行 打分 ， 并 且 做 得 和 
人 类 一 样 好 。 网 飞 运 用 了 相似 的 方法 ， 不 只 是 为 有 相同 品位 的 用 户 推 荐 
电影 ， 它 首先 会 将 用 户 和 电影 纳入 更 低 维 度 的 “品位 空间 ”中 ， 然 后 如 果 
在 该 空间 中 茶 部 电影 接近 用 户 ， 那 么 它 就 会 问 用 户 推荐 。 利 用 这 种 方 
法 ， 筷 可 以 同 用 户 推荐 之 前 连用 户 都 不 知 着 自己 会 喜欢 的 电影 。 


里 然 如 此 ， 当 你 看 到 上 脸 部 数据 集 的 主要 成 分 时 ， 可 能 会 感到 失望 。 
因为 它们 并 不 像 你 期 望 的 那样 会 是 面部 表情 或 者 东 些 特征 ， 它 们 看 起 来 
很 独 卯 ， 因 为 十 分 模糊 而 无 法 辨认 。 这 是 因为 PCA 属 于 线性 算法 ， 因 此 
所 有 可 能 的 主要 成 分 部 是 对 真实 脸 部 像素 的 平均 值 进行 加 权 (也 称 
为 “特征 脸 "， 因 为 它们 是 数据 集中 协 方差 窍 阵 的 特征 疝 量 ， 但 我 不 同意 
这 点 ) 。 为 了 真正 了 解 面 部 ， 以 及 世界 上 的 大 部 分 形状 ， 我 们 需要 男 一 
样 东 西 一 一 非 线 性 降 维 算法 。 


假设 我 们 缩小 由 罗 奥 多 市 的 地 图 ， 而 给 你 海湾 地 区 主要 城市 的 GPS 
坐标 〈 见 图 8-4) 。 
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图 8 -4 


你 可 以 再 次 仅仅 通过 看 这 张 图 来 猜测 这 些 城 市 是 在 海湾 上 ， 如 果 你 
画 一 条 线 穿 过 这 些 城市 ， 可 以 仅 利用 一 个 数据 束 可 以 确定 每 个 城市 的 位 


置 : 沿 着 这 条 线 ， 该 城市 距离 旧金山 有 多 远 。 但 PCA 无 法 找到 这 条 线 ， 
相反 ， 它 会 画 一 条 正好 在 海湾 中 间 的 线 ， 当 然 ， 那 里 并 没有 城市 。PCA 
完全 没有 解释 数据 的 形状 ， 而 是 将 其 模糊 化 了 。 


想象 一 下 我 们 打算 从 头 开 始 对 海湾 地 区 进行 开发 。 我 们 已 经 决定 每 
个 城市 的 方位 ， 预 算 允 许 我 们 铺 一 条 连接 这 些 城市 的 公路 。 我 们 会 铺 一 
条 从 旧金山 到 圣 布鲁诺 ， 再 到 圣 马 特 奥 ， 最 后 一 直到 奥克兰 的 公路 。 这 
条 公路 是 海湾 地 区 很 完美 的 一 维 表示 方法 ， 而 且 可 以 通过 一 种 简单 的 算 
法 来 实现 : 在 每 对 附近 的 城市 铺 一 条 路 。 当 然 ， 一 般 情况 下 这 种 做 法 会 
建成 一 个 公路 网 络 ， 而 不 仅仅 是 一 条 每 个 城市 都 会 使 用 的 公路 。 我 们 可 
以 强行 铺 一 条 最 接近 该 网 络 的 公路 ， 从 这 个 意义 上 讲 ， 城 市 之 间 在 这 条 
公路 上 的 距离 ， 也 就 可 以 尽 可 能 地 与 在 网 络 上 的 距离 相近 。 


对 于 非 线性 降 维 算法 来 说 ， 最 受 欢 迎 的 算法 一 一 等 距 上 映射 算法 ， 就 
可 以 实现 这 一 点 。 在 高 维度 空间 中 (比如 一 张 脸 ，， 它 可 以 把 每 个 数据 
点 与 所 有 附近 的 点 《很 相似 的 脸 ) 连接 起 来 ， 依 据 得 出 的 网 络 计算 每 一 
对 数据 点 之 间 的 最 短 距离 ， 然 后 找到 与 这 些 距 离 最 接近 的 简化 坐标 。 与 
PCA 相 反 ， 该 空间 中 的 “上 脸 部 坐标 ”往往 意义 重大 : 一 个 坐标 可 能 表示 脸 
部 朝 哪 个 方向 《〈 左 剖面 、 半 侧面 、 正 面 等 ) ; 另 一 个 坐标 表示 这 张 脸 的 
表情 “非常 伤心 、 有 点 伤心 、 不 动 声色 、 开 心 、 非 常 开心 等 ) .…… 从 了 
解 视 频 中 的 动作 到 探测 言语 中 的 情绪 ， 等 距 映 射 算法 有 惊人 的 能 力 ， 可 
以 对 准 复 杂 数 据 中 最 重要 的 维度 。 


这 是 一 个 有 趣 的 实验 。 从 罗 比 的 眼睛 中 提取 出 视频 流 ， 在 图 片 空间 
中 把 每 个 框架 当 作 一 个 点 ， 然 后 简化 那 组 图 片 变 成 单个 维度 。 你 会 发 现 
什么 ? 时间。 就 像 图 书 管理 员 整 理 书架 上 的 书 ， 时 间 会 将 每 张 图 片 放 置 
在 与 之 最 接近 的 图 片 旁 边 。 也 许 我 们 对 它 的 感知 ， 仅 仅 是 大 脑 降 维 搁 术 
的 目 然 结 果 。 在 记忆 这 个 道路 网 络 中 ， 时 间 是 主要 的 通道 ， 而 我 们 很 快 
就 能 找到 它 。 时 间 ， 换 句 话说 ， 就 是 记忆 的 主要 成 分 。 


拥护 盏 乐 主义 的 机 右 人 


聚 类 和 维度 简化 虽然 使 我 们 更 加 靠近 人 类 学 习 ， 但 仍 丢失 了 一 些 很 
重要 的 东西 。 孩 子 们 并 不 只 是 消极 地 观察 这 个 世界 ， 他 们 会 行动 ， 会 将 
看 到 的 东西 捡 起 来 ， 和 这 些 东 西 玩 、 到 处 跑 、 吃 东西 、 与 、 问 问题 。 如 
果 无 法 帮助 罗 比 与 周围 环境 互动 ， 那 么 最 先进 的 视觉 系统 也 坚 无 用 处 。 
罗 比 不 仅 要 知道 东西 的 位 置 ， 也 要 知道 每 一 刻 该 做 什么 。 原 则 上 ， 我 们 
可 以 教会 它 使 用 步 进 指令 (step-by-step instruction) ， 把 传感器 读数 和 
正确 的 行为 组 成 一 对 ， 但 这 只 对 精密 任务 可 行 。 采 取 什 么 样 的 行为 由 你 
的 目标 决定 ， 而 不 仪 取决 于 当前 感知 到 的 所 有 东西 ， 这 些 目 标 也 许 只 有 
在 遥远 的 未 来 才能 实现 。 在 任何 情况 下 ， 步 进 监督 (step-by-step 
supervision ) 都 不 应 该 被 采用 。 家 长 不 会 教 上 自己 的 孩子 聆 、 走 或 者 跑 ， 
他 们 都 是 自己 摸索 。 目 前 为 止 ， 所 有 的 学 习 算 法 都 不 能 做 到 这 一 点 。 


人 类 确实 有 稳定 的 回 导 : 情感 。 我 们 退 求 快乐 ， 吴 避 痛 盏 。 当 你 磁 
到 热 的 炉子 时 ， 会 本 能 地 缩 手 。 这 是 简单 的 部 分 ， 困 难 的 部 分 在 于 学 习 
如 何 一 开始 不 去 碰 那 个 炉子 。 你 需要 移动 手指 以 避免 之 前 没有 感受 过 的 
刺 痛 。 为 了 避免 这 种 刺 痛感 ， 大 脑 要 将 它 和 你 碰 炉 子 的 那 一 刻 ， 以 及 导 
致 这 种 剧 痛 的 动作 联系 起 来 ， 爱 德 华 :又 代 克 称 该 过 程 为 “效果 律 ”(law 
of effect) 。 人 们 更 有 可 能 重复 引起 愉悦 感 的 动作 ， 而 导致 疼痛 感 的 动 
作 则 不 太 可 能 重复 。 过 去 的 愉悦 感 可 以 穿越 ， 可 以 这 么 说 ， 而 行为 最 终 
可 以 与 那些 离 得 很 远 的 效果 相 联 系 。 和 其 他 动物 相 比 ， 人 类 能 更 好 地 完 
成 这 种 远程 追求 奖赏 的 任务 ， 而 且 这 对 我 们 的 成 功 也 很 重要 。 在 一 个 车 
名 实验 中 ， 工 作 人 员 在 孩子 们 面前 展示 了 桐 花 糖 ， 并 告诉 他 们 如 宁可 以 
坚持 几 分 钟 不 吃 杨 花 糖 ， 束 会 得 到 两 条 棉花 糖 。 那 些 能 成 功 做 到 这 一 点 
的 孩子 在 学 校生 活 、 成 人 后 的 生活 中 表现 得 会 更 好 。 也 许 不 那么 明显 ， 
但 利用 机 器 学 习 来 改善 其 网 页 和 业务 的 公司 也 会 面临 相似 的 问题 。 这 些 
公司 可 能 会 因为 短期 利益 而 做 出 改变 ， 比 如 销售 成 本 较 低 的 劣质 商品 ， 
以 赚 取 同等 价格 优质 商品 的 差价 。 这 种 做 法 忽略 了 一 点 : 从 长 远 看 ， 这 


样 的 商家 会 失去 顾客 。 


前 几 章 中 学 习 算 法 都 由 “即时 满足 ?这 一 原则 引导 : 每 个 行为 ， 无 论 
是 标记 垃圾 邮件 ， 还 是 购买 股票 ， 都 会 从 “老师 ”那里 得 到 即时 奖励 (或 
者 处 鹿 ) 。 有 一 个 机 器 学 习 的 子 域 致力 于 这 样 的 算法 : 进行 主动 探索 ， 
侦 然 得 到 奖励 ， 然 后 弄 清楚 将 来 怎样 才能 再 得 到 奖励 。 这 很 像 屡 儿 到 处 
怎 和 把 东西 放 到 哗 里 。 


这 个 过 程 称 为 “强化 学 习 "， 你 的 第 一 个 家 用 机 器 人 可 能 会 经 常用 到 
这 种 方法 。 如 果 你 刚 打 开罗 比 的 包装 ， 并 司 动 它 ， 就 让 它 来 为 你 束 鸡 皇 
和 培根 ， 它 可 能 需要 点 时间。 然而 ， 在 你 工作 的 时 候 ， 它 会 目 己 探索 司 
房 ， 注 意 各 类 东西 的 位 置 ， 以 及 你 用 哪 种 炉子 。 你 回来 的 时 候 ， 人 饭菜 已 
经 做 好 了 。 


强化 学 习 的 一 个 重要 先驱 是 跳棋 游戏 程序 ， 这 古 IBM 的 研究 员 阿 琶 
图 绪 尔 于 20 世 纪 50 年 代 编写 的 。 棋 盘 游 戏 是 强化 学 习 问 题 的 典范 : 你 
得 走 好 多 步 棋 ， 却 得 不 到 任何 反 饿 ， 奖 励 或 签 避 都 在 最 后 一 刻 揭晓 ， 其 
形式 也 就 是 电 和 输 。 守 纱 尔 的 程序 可 以 目 学 下 棋 ， 而 且 下 得 和 大 多 数 人 
一 样 好 。 它 不 会 二 接 学 棋盘 上 每 步 棋 该 怎么 走 ， 因 为 这 太 困 难 ， 相 反 ， 
它 会 学 习 如 何 评价 每 个 棋 的 位 置 《从 该 位 置 出 有 故 ， 放 的 概率 有 多 大 ) ， 
然后 选择 走 能 到 达 最 佳 棋 位 的 那 一 步 。 起 初 ， 它 知道 如 何 进行 评价 的 唯 
一 位 置 就 是 最 后 的 结果 : 启 、 平 局 或 是 输 。 一 旦 它 知 道 茶 个 特定 位 置 能 
赢 ， 也 就 知道 哪些 位 置 有 利于 让 它 达 到 这 个 位 置 。IBM 前 总 裁 小 托马斯 
沃 森 就 预测 ， 该 程序 被 证 实 之 后 ，IBM 的 股票 会 上 涨 15 个 点 。 最 后 ， 
它 被 证 实 了 。 这 个 教训 并 没有 被 IBM 忽 略 ， 后 来 IBM 制 造 了 一 个 国际 象 
棋 冠军 和 一 个 《危险 边缘 》 有 冠军 。 


强化 学 习 的 首要 思想 是 : 并 不 是 所 有 的 状态 都 有 奖励 《正面 或 者 负 
面 ) ， 但 每 种 状态 都 会 有 价值 。 在 棋 类 游戏 中 ， 唯 独 最 后 的 位 置 才 有 交 
励 (比如 1、0、-1， 分 别 代 表 亡 、 平 局 或 者 输 ) 。 虽 然 其 他 位 置 没 有 即 
时 奖励 ， 但 有 价值 ， 因 为 通过 这 些 位 置 可 以 得 到 最 后 的 奖励 。 因 为 某 个 


位 置 在 茶 步 棋 时 可 起 到 “将 死 ”《〈 横 类 术语 ) 的 作用 ， 从 实践 角度 看 ， 这 
相当 于 赢 一 盘 棋 ， 所 以 有 较 高 的 价值 。 我 们 可 以 将 这 种 推理 方式 传播 至 
好 的 与 坏 的 开场 走 法 中 ， 即 使 在 那个 距离 内 连接 完全 不 明显 。 在 视频 游 
戏 中 ， 交 励 通 党 是 分 数 ， 而 一 种 状态 的 价值 束 是 从 该 状态 开始 你 能 积累 
的 分 数 。 在 现实 生活 中 ， 即 时 奖励 要 好 于 未 来 交 励 ， 投 资 也 一 样 ， 未 来 
炎 励 的 回报 率 可 能 会 打折 扣 。 当 然 ， 奖 励 取决 于 你 选择 什么 行为 ， 强 化 
学 习 的 目标 往往 是 采取 那个 能 获得 最 丰厚 奖励 的 行为 。 你 该 不 该 打 电 话 
约 你 的 朋友 出 来 约会 ? 这 可 能 会 是 一 段 类 好 关系 的 开始 ， 或 者 你 只 会 得 
到 一 个 痛 匠 的 回绝 。 即 使 你 的 朋友 答应 约会 ， 这 个 约会 的 结果 可 能 好 也 
可 能 坏 。 从 茶 种 程度 上 说 ， 你 得 概括 所 有 未 来 可 能 会 走 的 道路 ， 然 后 现 
在 做 决定 。 强 化 学 习 通过 估算 每 种 状态 的 价值 来 做 到 这 一 点 ， 从 该 状态 
开始 你 所 期 望 得 到 的 全 部 奖励 ， 然 后 选择 能 将 奖励 最 大 化 的 行为 。 


假设 你 在 一 条 隧道 中 行走 ， 像 印第安 纳 : 琉 斯 那样 ， 然 后 你 到 了 一 
个 三 岔口 。 地 图 显示 左边 的 隧道 通 往 宝 藏 ， 右 边 的 则 通 往 蛇 洞 。 你 所 站 
位 置 的 价值 ( 残 在 三 岔口 前 〉 也 就 是 宝藏 的 价值 ， 因 为 你 会 选择 往 左 
走 。 如 果 你 总 是 选择 最 佳 可 能 的 行为 ， 那 么 某 个 状态 的 价值 与 成 功 状态 
的 价值 的 差异 ， 仪 仅 在 于 你 因 实 施 该 行为 而 获得 的 即时 奖励 (如 果 
有 ) 。 如 果 我 们 知道 每 种 状态 的 即时 奖励 ， 就 可 以 利用 这 个 观察 来 更 新 
相 邻 状态 的 价值 ， 以 此 类 推 ， 直 到 所 有 状态 都 会 有 一 致 的 价值 。 宝 藏 的 
价值 会 沿 着 隧道 反 同 传播 ， 直 到 到 达 贫 路 口 或 者 超过 这 个 地 方 。 你 一 旦 
知道 每 种 状态 的 价值 ， 就 可 以 知道 在 每 种 状态 中 该 采取 什么 行动 《能 够 
将 即时 奖励 和 最 终 状态 价值 最 大 化 的 行动 ) 。 这 很 大 程度 是 由 控制 论 理 
论 家 理 碍 德 : 贝 尔 曼 解决 的 ， 但 强化 学 习 中 真正 的 问题 会 在 你 没有 茶 区 
域 的 地 图 时 出 现 。 你 唯一 可 做 的 就 是 探索 并 发 现 奖励 在 哪里 。 你 可 能 
现 宝藏 ， 也 可 能 陷入 此 洞 。 每 当 你 要 采取 行动 时 ， 就 会 注意 即时 奖励 和 
最 终 状 态 ， 这 很 大 限度 上 可 以 由 监督 式 学 习 来 实现 。 但 你 还 是 得 更 新 你 
采取 行动 后 的 状态 的 价值 ， 使 其 与 刚刚 观 内 的 价值 一 致 ， 也 惑 是 说 ， 你 
获得 的 奖励 加 上 上 所 处 新 状态 的 价值 。 当 然 ， 这 个 价值 可 能 并 不 准确 ， 但 
如 末 你 已 经 花 了 足够 长 的 时 间 来 边 徘 徊 边 做 这 件 事 ， 那 么 最 终 会 停 在 所 


有 状态 的 正确 价值 以 及 对 应 行动 上 。 简 言 之 ， 这 就 是 强化 学 习 。 


请 注意 强化 学 习 算法 如 何 面 对 我 们 在 第 五 章 遇 到 的 利用 一 探索 困 
境 : 为 了 使 奖励 最 大 化 ， 你 很 自然 地 想 选 择 能 达到 高 价值 状态 的 行动 ， 
但 这 可 能 会 阻止 你 发 现 其 他 价值 更 高 的 奖励 。 强 化 学 习 算 法 解决 这 个 问 
题 的 方法 是 时 而 选择 最 佳 行 动 ， 时 而 随机 选择 〈 为 此 ， 大 脑 甚 全 似乎 有 
一 全 “噪声 发 生 器 ?”) 。 早 些 时 候 有 很 多 可 以 学 习 的 东西 ， 进 行 大 量 探索 
就 会 很 有 意义 。 一 旦 你 发 现 了 茶 个 区 域 ， 最 好 集中 精力 来 使 用 它 ， 这 束 
是 人 一 生 要 做 的 事 : 儿童 会 去 探索 ， 成 年 人 想 厦 如何 使 用 《除了 科学 
家 ， 因 为 他 们 是 永远 的 孩子 )。 儿 童 的 游戏 比 表面 看 起 来 要 严肃 。 如 果 
进化 过 程 产生 一 个 没有 用 的 生物 ， 并 在 出 生 后 的 几 年 给 其 父母 带 来 沉重 
负担 ， 那 么 付出 这 么 大 的 成 本 一 定 是 为 了 更 丰厚 的 利益 。 实 际 上 ， 强 化 
学 习 就 是 一 种 加 速 进化 过 程 一 一 和 尝试、 丢弃 ， 然 后 在 单个 生命 的 一 生 而 
不 是 几 代 中 改进 行动 一 一 有 了 这 个 标准 ， 它 的 效率 就 会 很 局 。 


对 于 强化 学 习 的 研究 自 20 世 纪 80 年 代 早 期 才 正 式 开 始 ， 马 了 萨 诸 澳 大 
学 的 里 奇 陕 顿 和 安 迪 :巴尔 托 参与 了 研究 工作 。 他 们 认为 学 习 取 决 于 与 
环境 的 互动 ， 这 一 点 很 关键 ， 但 监督 算法 并 没有 发 现 这 一 点 ;而 且 他 们 
在 动物 习 得 心理 学 领域 找到 灵感 。 院 顿 成 为 强化 学 习 的 主要 倡导 者 。 男 
一 个 关键 进展 发 生 在 1989 年 ， 当 时 剑桥 大 学 的 区 里 斯 : 添 特 金 斯 在 儿童 
学 习 实验 发 现 的 推动 下 ， 实 现 了 强化 学 习 的 现代 形式 ， 即 在 未 知 环境 中 
进行 最 优 控制 。 


然而 ， 到 目前 为 止 ， 我 们 看 到 的 强化 学 习 算 法 还 不 是 很 现实 ， 因 为 
它们 在 某 个 状态 中 不 知道 该 做 什么 ， 除 非 它 们 之 前 进入 过 那 种 状态 ， 而 
在 现实 世界 中 ， 并 没有 哪 两 个 情形 是 完全 相似 的 。 我 们 需要 对 之 前 所 处 
的 状态 到 新 状态 进行 概括 。 笠 运 的 是 ， 我 们 已 经 知道 该 如 何 做 到 这 一 
点 : 用 强化 学 习 来 将 之 前 见 过 的 一 个 监督 式 学 习 算 法 《〈“ 例 如， 多 层 感知 
项) 包括 进来 。 这 时 神经 网 络 的 工作 整 是 预测 状态 的 价值 ， 而 反 回 传播 
的 误差 信号 就 是 预测 价值 与 所 观察 到 的 价值 之 间 的 差别 。 还 存在 一 个 问 


题 : 在 监督 式 学 习 中 ， 某 个 状态 的 目标 价值 总 是 一 样 的 ， 但 在 强化 学 习 
中 ， 它 会 不 断 变化 (这 是 达到 附近 状态 的 结果 ) 。 因 此 ， 带 有 归纳 性 的 
强化 学 习 往往 无 法 确定 稳定 的 解决 方法 ， 除 非 内 部 学 习 算法 很 简单 ， 就 
像 线性 函数 那样 。 虽 然 如 此 ， 带 有 神经 网 络 的 强化 学 习 已 经 取得 一 些 显 
著 成 就 。 早 期 的 成 就 包括 制造 出 具备 人 类 水 平 的 西洋 双 陆 棋 选手 。 最 近 
的 一 种 强化 学 习 算法 ， 来 自 DeepMind (伦敦 的 一 家 创业 公司 )， 在 电 
视 体育 游戏 及 其 他 简单 的 大 型 电玩 中 打败 了 一 位 专家 级 的 人 类 选手 。 它 
利用 深层 网 络 来 从 控制 台 屏幕 低 像 素 的 动作 中 预测 其 价值 。 有 了 端 对 端 
的 视野 、 学 习 和 控制 ， 该 系统 与 人 工大 脑 至 少 有 一 点 相似 之 处 。 这 可 以 
解释 为 什么 DeepMind 是 一 家 没有 产品 和 利润 ， 员 工 也 寥寥 无 几 的 公 
司 ， 但 谷歌 却 向 它 投了 5 亿美 元 。 


除了 游戏 ， 研 究 人 员 还 可 以 利用 强化 学 习 来 平衡 极点 、 控 制 简 笔 男 
的 体操 运动 员 、 使 汽车 倒车 入 位 、 驾 驶 直升机 题 倒 飞行 、 管 理 自 动 电话 
对 话 、 分 配 手机 网 络 中 的 频道 、 调 度 电 梯 、 安 排 航天 飞机 货运 六 载 等 。 
强化 学 习 也 对 心理 学 和 神经 科学 产生 了 影响 。 大 脑 利用 神经 递 质 多 巴 胶 
来 传播 期 望 奖励 与 实际 奖励 之 间 的 区 别 。 强 化 学 习 解 释 了 巴 甫 洛 夫 条 件 
反射 作用 ， 但 不 像 行为 主义 ， 它 允许 动物 有 内 部 心理 状态 。 况 食 的 蜜蜂 
会 利用 它 ， 在 迷宫 中 找到 奶酪 的 老鼠 也 是 如 此 。 你 的 日 常生 活 由 一 连 串 
你 很 少 注意 到 的 、 由 强化 学 习 形 成 的 奇迹 组 成 。 你 起 床 、 罕 衣服 、 吃 早 
餐 ， 然 后 开车 去 上 班 ， 这 些 过 程 中 你 一 直 在 思考 别 的 事情 。 实 际 上 ， 强 
化 学 习 会 不 断 精心 安排 和 调整 这 个 奇妙 的 动作 交 啊 曲 。 强 化 学 习 片 段 
(为 习惯 ) 组 成 大 多 数 你 做 的 事 。 当 你 觉得 饿 了 时 ， 会 走 到 冰箱 前 ， 拿 
一 点 零食 。 正 如 查尔斯 ' 杜 硕 格 在 《习惯 的 力量 》 一 书 中 表明 的 那样 ， 
理解 并 控制 由 线索 、 日 常 、 燃 励 组 成 的 循环 关系 是 成 功 的 关键 ,不仅 对 
个 人 ， 而 且 对 企业 甚至 整个 社会 来 说 都 是 这 样 。 


作为 强化 学 习 的 创始 人 ， 里 奇 : 陡 顿 是 最 具有 热情 的 。 对 于 他 来 
说 ， 强 化 学 习 就 是 终极 算法 ， 而 且 解决 了 这 个 问题 就 相当 于 解决 了 人 工 
智能 问题 。 但 克 里 斯 : 沃 特 金 斯 却 并 不 满意 。 他 看 到 许多 儿童 能 做 但 强 


化 学 习 算法 做 不 了 的 事 : 解决 问题 ， 经 过 几 次 答 试 之 后 能 更 好 地 解决 问 
题 ， 制 订 计 划 ， 获 取 逐 渐 抽 象 的 知识 。 笠 运 的 是 ， 对 于 这 些 较 高 水 平 的 
能 力 ， 我 们 也 有 相应 的 学 习 算法 ， 其 中 最 重要 的 就 是 组 块 算法 。 


学 习 的 目的 就 是 为 了 更 好 地 实践 。 你 现在 可 能 记 不 得 学 着 系 鞋 带 有 
多 难 了 。 一 开始 ， 你 完全 学 不 会 ， 虽 然 当时 你 已 经 5 岁 了 。 接 着， 你 的 
鞋 融 松 开 的 速度 比 你 系 的 速度 还 要 快 。 慢 慢 地 ， 你 学 会 更 快 、 更 好 地 系 
畦 带 了 ， 直 到 你 不 自觉 地 系 鞋 带 。 很 多 其 他 事情 也 是 同样 的 道理 ， 比 如 
息 、 走 、 跑 、 骑 单车 、 开 和 车、 阅读、 写作、 算术、 演奏 乐 器 、 进 行 体育 
活动 、 做 饭 和 使 用 计算 机 等 。 讽 刺 的 是 ， 人 在 最 痛 否 时 学 到 的 东西 往往 
最 多 。 在 早期 ， 每 一 步 都 很 艰难 ， 你 不 断 失 败 ， 即 便 你 成 功 了 ， 结 打 也 
并 不 会 有 多 好 。 当 你 掌握 高 尔 夫 挥 杆 动作 或 者 网 球 发 球 之 后 ， 可 能 会 伦 
几 年 完善 这 些 技能 ， 但 这 些 年 你 取得 的 进步 会 比 开 始 学 时 的 前 几 周 少 很 
多 。 通 过 练习 你 会 做 得 更 好 ， 但 不 会 以 恒定 的 速度 进步 : 一 开始 你 进步 
很 快 ， 接 下 来 就 没 那么 快 了 ， 最 后 变 得 很 慢 。 无 论 是 玩 游戏 还 是 弹 吝 
他 ， 技 能 提高 时 间 曲 线 图 〈 你 做 菜 事 的 表现 或 者 做 茶 事 所 花费 的 时 间 ) 
有 一 个 非常 特殊 的 形式 《〈 见 图 8-5) 。 
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这 种 类 型 的 曲线 被 称 为 “ 才 法 则 ”(a power law) ， 因 为 随 着 时 间 达 
到 茶 负 村 时 ， 表 现 会 出 现 变化 。 例 如 ， 在 图 8-5 中 ， 完 成 所 需 的 时 间 与 
尝试 的 次 数 的 负 二 次 方 成 正比 (或 者 相当 于 1 除 以 尝试 次 数 的 平方 )。 
几乎 每 项 人 类 技能 都 会 遵循 暴 法 则 ， 不 同 的 贤 会 对 应 不 同 的 技能 ( 相 
反 ，Windows 系 统 则 不 会 随 着 实践 次 数 的 增多 而 变 快 一 一 这 是 微软 该 解 
决 的 问题 。) 


1979 年 ， 艾 伦 : 纽 尼 尔 和 保罗 : 罗 森 布 鲁 姆 开始 探索 这 个 所 谓 的 “ 蚌 法 
则 ”实践 存在 的 原因 。 纽 厄 尔 是 人 工 知 能 的 创始 人 之 一 ， 也 是 主要 的 认 
知心 理学 家 ， 而 罗 森 布 鲁 姆 则 是 他 在 卡 内 基 - 梅 隆 大 学 的 研究 生 之 一 。 
当时 ， 没 有 哪个 实践 模式 可 以 解释 暴 法 则 ， 纽 厄 尔 和 罗 森 布 管 姆 怀疑 这 
可 能 与 组 块 有 关 。 组 块 是 一 个 来 自 感知 与 记忆 心理 学 的 概念 。 我 们 以 组 


块 的 形式 来 感知 并 记 住 东西 ， 而 在 任意 给 定 的 时 间 内 《根据 乔治 : 米 勒 
的 经 典 论文 的 结论 为 7+t2) ， 我 们 只 能 通过 短暂 记忆 来 记 住 这 么 多 组 
块 。 关 键 是 将 信息 聚集 成 组 块 可 以 让 我 们 处 理 得 更 多 ， 否 则 我 们 处 理 不 
了 那么 多 信息 。 这 就 是 电话 号 码 有 连 字符 的 原因 : 1-723-458-3897 比 
17234583897 要 好 记得 多 。 赫 伯 特 :西蒙 〈 纽 友和 尔 的 长 期 合作 伙伴 以 及 人 
工 智能 的 共同 创始 人 ) 早期 已 经 发 现 ， 新 棋 手 和 专业 棋 手 的 主要 区 别 在 
于 ， 新 棋 手 一 次 记 一 个 象棋 位 置 ， 而 专业 棋 手 则 看 到 涉及 多 个 位 置 、 更 
大 的 模式 。 要 提高 国际 象棋 技能 主要 涉及 获取 更 多 、 更 大 这 样 的 组 块 。 
纽 丘 尔 和 罗 森 布 鲁 姆 假设 ， 在 掌握 所 有 技能 而 不 仅仅 是 下 棋 技 能 中 ， 类 
似 的 过 程 在 起 作用 。 


在 感知 和 记忆 中 ， 组 块 仅仅 是 一 种 符号， 代表 了 其 他 符号 的 模式 ， 
就 像 AI 代 表 人 工 智能 。 纽 厄 尔 和 罗 森 布 鲁 姆 将 这 个 思想 运用 到 纽 厄 尔 和 
西蒙 早期 创建 的 问题 解决 理论 中 。 纽 厄 尔 和 西蒙 让 实验 对 象 解决 问题 ， 
例如 ， 在 黑板 上 利用 一 个 数学 公式 推导 出 另外 一 个 数学 公式 ， 同 时 大 声 
描述 他 们 如 何 得 到 这 个 公式 。 他 们 发 现 ， 人 类 解决 问题 的 方式 是 将 问题 
分 解 为 小 问题 ， 再 将 小 问题 再 分 解 为 更 小 的 问题 ， 然 后 系统 地 减少 初始 
状态 “比如 第 一 个 公式 ) 与 目标 状态 (第 二 个 公式 ) 之 间 的 差异 。 然 
而 ， 这 样 做 需要 找到 能 起 作用 的 行动 顺序 ， 这 需要 时 间 。 纽 尼 尔 和 罗 和 森 
布 鲁 姆 的 假设 是 ， 每 次 当 我们 解决 一 个 小 问题 时 ， 会 形成 一 个 组 块 ， 这 
样 我 们 束 可 以 直接 从 解决 问题 前 的 状态 进入 解决 问题 后 的 状态 。 这 种 意 
义 下 的 组 块 有 两 个 部 分 :刺激 (你 从 外 部 世界 或 者 短暂 记忆 中 识别 出 的 
模式 ) 和 反馈 (你 因此 而 执行 的 行动 顺 夺 〉。 一 旦 车 握 一 个 组 块 ， 你 囊 
会 将 其 储存 在 长 期 记忆 中 ， 下 次 你 解决 同样 的 小 问题 时 ， 就 可 以 直接 应 
用 该 组 块 ， 会 市 省 寻找 的 时 间 。 这 个 过 程 在 所 有 水 平 层面 都 会 发 生 ， 直 
到 你 找到 一 个 能 解决 所 有 问题 的 组 块 ， 并 且 能 够 自行 解决 这 些 问题 。 为 
本 系 好 你 的 鞋 带 ， 先 打 结 ， 然 后 用 一 站 栓 个 僚 ， 用 这 个 套 绕 住 妨 一 端 ， 
然后 将 其 从 中 间 的 洞 罕 过 。 对 于 5 岁 的 孩子 来 将， 这 些 并 不 简单 ， 可 一 
旦 你 掌握 相应 的 组 块 ， 就 差不多 学 会 了 。 


纽 厄 尔 和 罗 森 布 鲁 姆 将 他 们 的 组 块 程序 应 用 于 解决 一 系列 问题 ， 测 
量 它 在 每 次 笃 试 中 花费 的 时 间 ， 这 束 弹 出 一 系列 暴 法 则 曲线 。 但 这 仅仅 
是 开始 ， 接 下 来 他 们 将 组 块 并 入 “ 猛 增 ”(Soar) 理论 中 ， 这 是 纽 厄 尔 和 
为 一 个 学 生 约 鞭 : 六 尔 德 一 起 创建 的 一 般 认 知 理论 。“ 猛 增 ” 程 厅 不 仪 为 
某 个 预 设 了 等 级 的 目标 而 努力 ， 当 每 次 过 到 障碍 时 ， 还 都 可 以 定义 并 解 
决 新 的 子 问题 。 一 旦 它 形 成 新 的 组 块 , “ 独 增 ?程序 驶 会 对 其 进行 一 般 
化 ， 以 应 用 到 相似 的 问题 中 ， 这 与 逆 问 演绎 的 方式 类 似 。 除 了 用 法 则 实 
践 , “ 狐 增 ?中 的 组 块 最 后 成 为 许多 学 习 现 象 的 民 好 模型 。 通 过 对 数据 和 
类 推 法 进行 组 块 ， 它 甚至 可 以 应 用 到 掌握 新 知识 中 。 于 是 纽 厄 尔 、 罗 和 森 
布 鲁 姆 、 莱 尔 德 做 出 这 样 的 假设 一 一 组 块 是 学 习 所 需 的 “唯一 ”机制 ， 换 
句 话说 ， 惑 是 终极 算法 。 


作为 典型 的 人 工 智 能 类 型 ， 纽 尼 尔 、 西 蒙 及 其 学 生 和 拥护 者 都 非常 
相信 问题 解决 的 重要 地 位 。 如 有 果 问 题解 决 者 很 强大 ， 那 么 学 习 算 法 就 会 
依赖 其 能 力 而 变 得 简单 。 的 确 ， 学 习 只 是 男 外 一 种 问题 的 解决 方式 。 纽 
万 尔 和 同伴 共同 努力 ， 将 所 有 学 习 简 化 为 组 块 ， 将 所 有 认 知 简化 为 “ 猛 
增 ” 程 序 ， 最 后 他 们 失败 了 。 其 中 一 个 问题 是 ， 笃 试 这 些 步 又 的 成 本 变 
得 很 高 ， 程 序 变 得 越 来 越 慢 。 从 某 种 程度 上 说 ， 人 类 要 避免 这 一 点 的 发 
生 ， 但 到 目前 为 止 ， 该 领域 的 研究 人 员 还 找 不 到 解决 方法 。 最 重要 的 
征 ， 答 试 将 强化 学 习 、 监 督 式 学 习 ， 以 及 别 的 一 切 简化 成 组 块 ， 基 本 上 
会 制造 更 多 的 问题 ， 而 不 会 解决 问题 。 最 终 ,“ 独 增 ?的 研究 人 员 承 认 失 
败 ， 然 后 将 那些 其 他 类 型 的 学 习作 为 分 离 机 制 并 入 “ 狐 增 ”。 虽 然 如 此 ， 
组 块 还 是 学 习 算法 的 典型 例子 ， 受 到 心理 学 的 局 发 ， 还 是 真正 的 终极 算 
法 。 无 论 它 最 后 变 成 什么 ， 肯 定 会 分 享 其 通过 实践 得 到 提升 的 能 


组 块 和 强化 学 习 在 商业 中 的 应 用 不 如 在 监督 式 学 习 、 聚 类 或 者 维 数 
简约 中 广泛 ， 但 是 通过 与 环境 互动 进行 的 相似 学 习 类 型 是 掌握 行动 (或 
相应 行动 ) 的 效果 。 如 果 现 在 你 的 电子 商务 网 站 主页 的 背景 是 蓝 色 的 ， 
你 在 想 让 它 变 成 红色 会 不 会 提高 销量 ， 那 么 可 以 将 红色 网 页 用 在 10 万 个 
随机 挑选 的 用 户 身 上 试 试看 ， 然 后 将 结果 与 常规 网 站 进行 比较 。 这 种 手 


法 称 为 A/B 测 试 ， 起 初 主要 用 在 药物 试验 中 ， 之 后 运用 到 许多 领域 。 在 
这 些 领域 中 ， 数 据 可 以 根据 需要 集中 起 来 ， 从 营销 到 对 外 援助 。 它 还 可 
以 概括 成 一 次 性 答 试 许多 变化 组 合 ， 而 不 会 忽略 什么 样 的 改变 会 带 来 什 
么 (或 者 失去 什么 )。 诸 如 亚马逊 、 谷 歌 之 类 的 公司 对 此 深信 不 疑 ， 你 
可 能 已 经 不 知 不 觉 参 与 了 几 千 项 A/B 测 试 。A/B 测 试 证 明 常 听 到 的 批评 
言论 的 错误 : 大 数据 只 对 寻找 相关 关系 有 好 处 ， 对 寻找 因果 关系 则 没 

用 。 除 了 哲学 要 后 ， 掌 握 因 末 关 系 就 是 掌握 行动 的 效果 ， 而 任何 有 数据 
流 并 能 影响 数据 流 的 人 都 能 做 到 这 一 点 一 一 从 一 岁 孩 子 在 浴缸 中 戏 水 到 
总 统 再 次 参加 竞选 。 


学 会 关联 


如 采 我 们 赋予 多 比 机 器 人 在 本 书 中 提 到 的 所 有 学 习 能 力 ， 它 会 变 得 
很 智能 ， 但 还 会 有 点 扳 俯 。 它 会 把 世界 看 成 一 群 独立 的 物体 ， 可 以 对 其 
进行 识别 、 操 纵 甚至 预测 ， 但 它 不 理解 世界 是 一 张 相互 联系 的 网 络 。 罗 
比 医 生 会 很 擅长 根据 病人 的 症状 来 诊断 其 患 有 感冒 ， 但 无 法 猜想 这 个 病 
人 患 的 是 猪 流感 ， 因 为 它 和 感染 该 疾病 的 人 有 过 接触 。 在 谷歌 出 现 之 
前 ， 搜 索引 擎 会 通过 看 它 的 内 容 来 决定 某 网 页 是 否 与 你 的 搜索 相关 一 一 
还 有 别 的 吗 ? 布 林 和 佩 奇 的 观点 是 ， 与 该 网 页 相关 的 最 明显 标志 在 于 ， 
相关 的 网 页 会 与 它 有 链接 。 同 样 的 道理 ， 如 果 你 想 预 测 某 个 青少年 是 否 
有 开始 吸烟 的 危险 ， 到 目前 为 止 ， 你 能 做 得 最 有 效 的 事 就 是 调查 他 的 好 
朋友 是 否 吸烟 。 一 种 酶 的 形状 与 其 分 子 形状 的 关系 ， 惑 像 锁 与 钥 古 的 天 
系 一 样 不 可 分 割 。 捕 食 者 与 猎物 有 缠绕 很 紧 的 属性 ， 每 种 属性 会 进化 出 
打败 对 方 的 属性 。 在 所 有 这 些 例子 中 ， 了 人 解 一 个 实体 的 最 佳 方法 一 一 无 
论 它 是 人 、 动 物 、 网 页 还 是 分 子 一 一 就 是 了 解 它 如 何 与 其 他 实体 进行 连 
接 。 这 就 需要 一 种 新 的 学 习 方式 : 不 会 将 数据 当 作 不 相关 物体 的 随机 样 
本 ， 而 是 对 复杂 网 络 的 一 和 。 网 络 中 的 节点 会 互相 作用 ; 你 对 这 个 市 皮 


做 了 什么 ， 会 影响 到 其 他 节点 ， 最 后 还 会 返回 来 对 你 进行 影响 。 关 联 学 
习 算 法 ， 正 如 它们 的 名 字 那 样 ， 也 许 不 太 有 社交 智能 ， 但 它们 将 是 最 好 
的 东西 。 在 传统 统计 学 习 中 ， 每 个 人 者 是 一 座 品 ， 与 世 隅 绝 ， 在 关联 学 
习 中 ， 每 个 人 都 是 一 块 陆地 ， 有 是 主要 大 陆 的 一 部 分 。 人 类 是 关联 学 习 
者 ， 被 相互 连接 起 来 ， 我 们 如 果 想 让 罗 比 成 长 为 一 个 有 知觉 、 擅 长 社交 
的 机 器 人 ， 就 需要 对 它 进行 布线 ， 然 后 连接 。 


我 们 面临 的 第 一 个 困难 就 是 ， 当 数据 变 成 整个 大 网 络 时 ， 似 乎 就 没 
有 许多 例子 来 学 习 3 了， 只 剩 一 个 ， 而 且 这 人 不够。 朴素 贝 叶 斯 算法 通过 数 
发 烧 流 感 病人 的 数量 来 知道 发烧 是 感冒 的 一 种 症状 。 如 果 和 它 只 能 看 到 一 
位 病人 ， 可 能 会 得 出 结论 : 流感 总 会 引起 发 烧 ， 或 者 不 会 引起 发烧。 这 
两 个 结论 都 是 错 的 。 我 们 想 确 认 流 感 是 传染 性 疾病 ， 方 法 就 是 通过 观察 
在 社交 网 络 中 的 感染 模式 一 一 感染 的 人 群 在 这 边 ， 没 有 感染 的 人 群 在 那 
边 一 一 但 我 们 只 能 看 到 一 个 模式 ， 即 使 它 处 于 70 亿 人 的 网 络 中 ， 因 此 如 
何 概括 疝 不 清晰 。 关 键 在 于 要 注意 到 ， 藤 入 该 网 络 中 ， 我 们 有 许多 对 人 
的 实例 。 如 果 见 人 与 未 曾 相 见 的 人 相 比 ， 更 有 可 能 患 流 感 ， 那 么 认识 流 
感 病 人 也 会 让 你 成 为 流感 病人 的 可 能 性 增 大 。 人 然而， 不幸 的 是 ， 我 们 不 
能 只 数 数据 中 都 患 流感 的 熟人 的 对 数 ， 然 后 把 这 些 数 变 成 概率 。 因 为 一 
个 人 可 以 有 许多 熟人 ， 而 所 有 成 对 的 概率 不 会 总 计 为 相关 模式 。 举 个 例 
子 ， 该 模式 会 让 我 们 计算 在 给 定 他 们 熟人 的 情况 下 ， 计 算 东 人 得 流感 的 
概率 。 当 例子 都 分 开 时 ， 我 们 残 不 会 有 这 样 的 问题 了 ， 我 们 也 不 会 天 注 
这 个 例子 ， 比 如 丁 死 家 庭 中 ， 每 个 人 都 住 在 自己 的 “ 死 吕 ”上 。 这 并 不 是 
真实 世界 ， 而 且 无 论 如 何 ， 这 里 绝对 不 会 有 什么 流行 病 。 


解决 共 法 就 是 找到 一 组 特征 ， 并 掌握 它们 的 权 值 ， 就 像 在 马尔 科 夫 
网 络 中 那样 。 对 于 每 个 人 《〈《X) ， 我 们 可 以 有 “X 患 有 流感 ”的 特征 ， 对 
于 每 对 熟人 XX 和 Y， 特 征 就 是 “XX 和 Y 患 有 流感 ”， 等 等。 正如 在 马尔 科 夫 
网 络 中 那样 ， 最 大 似 然 权 值 使 每 个 特征 以 在 数据 中 观 峙 到 的 频率 出 现 。 
如 果 有 很 多 人 患 有 流感 ， 那 么 “X 患 有 流感 ”的 权 值 就 会 比较 高 。 如 有 果 当 
X 患 有 流感 时 ， 熟 人 Y 也 患 有 流感 的 概率 会 比 随机 抽 选 的 网 络 成员 患 有 


MD 


流感 的 概率 大 ， 因 此 “X 和 Y 都 患 有 流感 ”的 权 值 会 较 高 。 如 果 40% 的 人 有 
流感 ， 那 么 16% 的 所 有 熟人 两 人 组 也 会 患 有 流感 ， 那 么 <X 和 Y 都 患 有 流 
感 ” 的 权 值 将 等 于 零 ， 因 为 我 们 不 需要 该 特征 来 准确 复制 数据 的 统计 
《0.4x0.4=0.16) 。 如 果 特 征 的 权 值 为 正 ， 流 感 更 有 可 能 发 生 在 人 和 群 当 
中 ， 而 不 会 十 分 容易 随机 感染 某 个 人 。 也 就 是 说 ， 如 果 你 熟悉 的 人 患 有 
流感 ， 那 么 你 感染 流感 的 概率 会 更 大 。 


请 注意 ， 网 络 会 为 每 对 熟人 赋予 分 离 的 特征 ， 比 如 爱丽 丝 和 鲍 肠 都 
患 有 流感 ， 爱 丽 丝 和 克 里 斯 都 患 有 流感 ， 等 等 。 但 我 们 无 法 为 每 个 两 人 
组 确定 一 个 分 离 权 值 ， 因 为 他 们 只 有 一 个 数据 点 (无 论 是 否 受 感染 
了 ) 。 对 于 疝 未 确诊 的 网 络 成 员 ， 我 们 不 能 将 他 们 一 概 而 论 《〈 伊 薇 特 和 
扎 克 都 患 有 流感 吗 ) 。 我 们 只 能 在 自己 见 过 的 所 有 实例 的 基础 上 ， 为 相 
同形 式 的 所 有 特征 确定 一 个 权 值 。 实 际 上 ,“X 和 Y 患 有 流感 ”是 特征 模 
板 ， 可 以 利用 每 对 熟人 进行 实例 化 (爱丽 丝 和 鲍 动 ， 爱 丽 丝 和 克 里 斯 ， 
等 等 ) 。 模 板 的 所 有 实例 的 权 值 被 “捆绑 在 一 起 ”从 这 个 意义 上 讲 ， 它 
们 有 同样 的 价值 。 也 就 是 说 ， 即 便 只 有 一 个 实例 整个 网 络 ) ， 我 们 也 
可 以 进行 推理 。 在 非 关 联 学 习 中 ， 一 个 模型 的 参数 仅 以 一 种 方式 捆绑 
一 一 越过 所 有 独立 例子 “比如 所 有 被 诊断 过 的 病人 ) 。 在 关联 学 习 中 ， 
每 个 我 们 创造 的 特征 模板 将 捆绑 所 有 实例 的 参数 。 


我 们 不 仪 限 于 成 对 的 或 者 单独 的 特征 。 脸 书 想 预 测 哪 些 人 是 你 的 朋 
友 ， 这 样 才 能 为 你 推荐 朋友 ， 为 此 它 可 以 利用 “朋友 的 朋友 可 能 成 为 朋 
友 ” 这 个 规则， 因为 每 个 实例 都 涉及 三 个 人 。 比 如 ， 如 果 爱 丽 丝 和 鲍 动 
古 朋友 ， 而 鲍 动 和 元 里 斯 也 是 朋友 ， 那 么 爱丽 丝 和 克 里 斯 有 可 能 成 为 朋 
友 。HL: 门 肯 说 过 一 句 妙 语 : 如 末 一 个 人 挣 的 钱 比 他 的 妻子 的 妹妹 的 丈 
夫 要 多 ， 那 么 他 就 是 富有 的 。 这 人 句 话 涉及 四 个 人 。 这 些 规则 中 的 每 一 条 
都 可 以 变 成 关联 模型 中 的 特征 模板 ， 而 在 特征 出 现在 数据 中 的 频率 的 基 
础 上 ， 可 以 确定 它 的 一 个 权 值 。 正 如 在 马尔 科 夫 网 络 中 那样 ， 特 征 也 可 
以 通过 数据 确定 。 


关联 学 习 算 法 可 以 从 一 个 网 络 推广 到 另 一 个 网 络 〈 比 如 确定 流感 如 
何在 亚特兰大 传播 的 模型 ， 然 后 在 波士顿 运用 ) ， 它 们 也 可 以 在 多 个 网 
络 上 学 习 《 比 如 亚特兰大 和 波士顿 ， 假 设 亚 特 兰 大 没有 人 和 波士顿 人 有 
联系 )。 不 像 “ 津 规 ” 学 习 ， 这 里 所 有 的 例子 必须 有 同等 数量 的 属性 。 在 
关联 学 习 中 ， 网 络 可 以 在 大 小 方面 有 所 不 同 。 同 样 的 模板 ， 较 大 的 网 络 
会 比较 小 的 网 络 有 更 多 的 实例 。 当 然 ， 从 较 小 的 网 络 到 较 大 的 网 络 的 推 
广 可 能 准确 ， 也 可 能 不 准确 ， 需 要 指出 的 是 ， 没 有 什么 会 阻止 它 。 从 局 
部 上 看 ， 大 型 网 络 往往 和 小 型 网 络 的 表现 没有 差异 。 


关联 学 习 算法 能 达到 的 最 佳 效 果 束 是 让 懒散 的 老师 变 得 勤奋 。 对 于 
普通 分 类 需 来 说 ， 没 有 归 类 的 例子 坚 无 用 处 。 如 果 我 只 知道 病人 的 症 
状 ， 却 不 知道 诊断 结果 ， 那 么 这 对 我 学 习 看 病 坚 无 帮助 。 如 果 我 知道 患 
者 的 一 些 朋 友 感 染 了 流感 ， 那 么 可 能 间接 证 明 他 也 感染 了 流感 。 在 一 个 
网 络 中 确诊 几 个 人 ， 然 后 将 这 些 诊断 结果 推测 到 他 们 的 朋友 ， 以 及 他 们 
朋友 的 朋友 喘 上 ， 这 就 是 接 下 来 诊断 所 有 人 的 最 佳 做 法 。 推 测 出 来 的 诊 
断 结果 可 能 有 干扰 因素 ， 但 关于 症状 如 何 与 流感 相关 联 的 整体 统计 ， 与 
只 有 几 个 诊断 结果 可 利用 相 比 ， 前 者 要 准确 和 完整 得 多 。 孩 子 很 擅长 充 
分 利用 他 们 受到 的 分 散 式 监 督 〈 只 要 不 选择 忽略 它 ) ， 关 联 学 习 算 法 也 
有 部 分 这 样 的 能 


然而 ， 这 种 力量 也 是 要 付出 代价 的 。 在 普通 分 类 需 中 ， 比 如 决策 树 
或 者 感知 器 ， 从 实体 的 属性 推 关 出 其 类 别 ， 这 束 涉 及 几 次 查找 工作 和 一 
些 计算 。 在 一 个 网 络 中 ， 每 个 市 点 的 类 别 间 接 取决 于 所 有 其 他 节点 ， 而 
我 们 不 可 以 孤立 地 对 其 进行 推 朵 。 我 们 可 以 求助 于 同样 用 于 贝 叶 斯 网 络 
的 推理 技术 ， 比 如 环 路 信念 传播 或 者 MCMC， 但 数值 范围 是 不 一 样 的 。 
典型 的 贝 叶 斯 网 络 可 能 会 有 几 千 个 变量 ， 但 典型 的 社交 网 络 却 有 数 百 万 
个 市 上 甚至 更 多 。 闪 运 的 是 ， 因 为 网 络 模型 由 许多 有 相同 权 值 的 相同 特 
征 不 断 重 复 形 成 ， 我 们 往往 可 以 将 网 络 压 缩 变 成 < 超 节 点 ”， 每 个 超 节 操 
由 许多 节点 组 成 。 我 们 知道 这 些 市 点 有 相同 的 概率 ， 而 且 会 解决 许多 更 
细小 的 问题 ， 结 果 也 完全 相同 。 


关联 学 习 有 和 悠久 的 历史 ， 其 历史 可 以 至 少 退 溯 到 20 世 纪 70 年 代 ， 以 
及 符号 学 派 技 巧 (如 逆向 演绎 ) 。 但 随 着 互联 网 的 出 现 ， 它 需要 新 的 动 
力 。 突 然 之 间 ， 网 络 变 得 无 处 不 在 ， 而 对 网 络 进行 模仿 变 得 刻不容缓 。 
我 发 现 有 一 个 特别 有 趣 的 现象 一 一 口碑 传播 。 信 息 如 何在 社交 网 络 中 传 
播 ? 我 们 可 否 测量 每 个 成 员 的 影响 力 ， 然 后 将 目标 确定 在 数量 够 多 、 影 
啊 力 最 大 的 成 员 身 上 ， 以 开局 一 轮 口头 传播 ? 我 和 学 生 里 特 : 理 查 森 一 
起 设计 了 一 种 算法 就 能 够 做 到 这 一 点 。 我 们 将 其 运用 到 Epinions 网 页 
(一 个 产品 评论 网 站 〉 上 ， 可 以 允许 成 员 说 出 他 们 信任 谁 的 评论 。 研 究 
发 现 之 一 是 ， 疝 单个 最 有 影响 力 的 成 员 营 销 产 品 〈 该 成 员 被 许多 拥护 者 
的 信任 ， 而 这 些 拥护 者 也 被 目 身 的 拥护 者 信任 等 ) 和 对 1/3 的 所 有 成 员 
进行 推销 相 比 ， 效 果 是 一 样 的。 随 之 而 来 的 是 一 大 批 关 于 此 问题 的 研 
完 。 此 后 ， 我 就 已 经 开始 将 关联 学 习 应 用 到 其 他 许多 领域 ， 包 括 预 测 谁 
会 在 社交 网 络 中 形成 链接 、 整 合 数据 库 、 使 机 器 人 能 够 绘制 周围 环境 的 
地 图 。 


如 果 你 想 了 解 世界 如 何 运 转 ， 那 么 关联 和 学习 束 是 很 好 的 工具 。 在 艾 
陛 殉 : 阿 西 英 夫 的 《基地 》 一 书 中 ， 科 学 家 哈里 : 谢 顿 可 以 从 数学 角度 预 
测 人 类 的 未 来 ， 从 而 将 其 从 衰落 中 拯救 出 来 。 此 外 ， 保 罗 : 克 和 鲁 格 曼 也 
承认 ， 就 是 这 个 诱 人 的 梦想 ， 让 他 成 为 一 名 经 济 学 家 。 依 据 谢 顿 的 观 
点 ， 人 类 就 像 气体 中 的 分 子 ， 大 数 法 则 保证 ， 即 使 个 人 无 法 预测 ， 整 个 
社会 却 可 以 。 关 联 学 习 表 明 事 实 并 非 如 此 ， 如 果 人 类 是 独立 的 ， 每 个 人 
抓 立 地 做 决定 ， 社 会 的 确 就 会 变 得 可 预测 ， 因 为 所 有 那些 随意 的 决定 会 
合计 为 一 个 相当 恒定 的 均值 。 但 当 人 们 互动 时 ， 较 大 的 集合 体会 比较 小 
的 集合 体 更 不 那么 可 预测 。 如 果 信 心 和 忍 惧 可 以 传染 ， 每 种 情绪 都 会 主 
导 一 段 时 间 ， 但 常 利 整个 社会 会 从 这 种 情绪 转化 到 另 一 种 情绪 。 昌 然 如 
此 ， 并 不 是 所 有 消息 都 是 坏 的 。 如 果 我 们 可 以 估计 人 们 之 间 相 互 影响 的 
强度 ， 也 就 可 以 估计 这 种 转换 在 多 久之 后 会 发 生 ， 即 使 这 是 第 一 次 转 
换 。 换 个 说 法 ， 黑 天 和 忽 并 不 一 定 不 可 预测 。 


对 于 大 数据 ， 抱 怨 较 普 过 的 就 是 拥有 的 数据 越 多 ， 就 越 容易 在 大 数 


据 中 发 现 伪 模式 。 如 果 数 据 仪 仪 是 一 大 组 分 离 的 实体 ， 那 么 这 一 点 可 能 
正确 ; 但 如 果 它 们 相互 关联 ， 情 况 束 不 一 样 了 。 例 如 ， 那 些 利用 数据 挖 
气 来 隶 捕 怒 怖 分 子 的 批评 者 认为 ， 除 了 伦理 问题 ， 这 绝 不 会 起 作用 ， 因 
为 无 率 的 人 太 多 ， 而 仙 怖 分 子 却 极 少 ， 因 此 它 要 么 会 引 友 过 多 的 错误 警 
报 ， 要 么 不 会 逮捕 任何 人 。 当 录 个 游客 或 者 忍 怖 分 子 在 划 定 爆炸 地 扣 的 
范围 时 ， 有 人 对 纽约 市 政 厅 进 行 录像 了 吗 ? 购买 大 量 硝酸 镁 的 人 是 农民 
还 是 爆炸 制造 者 ? 所 有 这 些 人 单独 看 都 很 无 率 ， 但 如 果 “ 游 客 * 和 “ 农 
民 ” 一 直 保 持 密 切 的 电话 联系 ， 而 后 者 只 是 开关 他 的 拉登 皮卡 进入 曼 哈 
顿 ， 可 能 是 时 候 需 要 一 个 人 来 四 紧 他 了 。 美 国 国家 安全 局 喜欢 搜寻 谁 给 
谁 打 过 电话 的 记录 ， 这 不 仅仅 因为 可 以 说 这 是 合法 的 ， 而 且 因 为 对 于 预 
测算 法 来 说 ， 它 们 往往 比 通话 内 容 的 信息 量 更 大 ， 而 通话 内 容 需 要 人 进 
行 分 析 才 能 被 理解 。 


除了 社交 网 络 ， 关 联 学 习 的 杀手 级 应 用 正在 了 解 活 细胞 如 何 运作 。 
一 个 细胞 是 一 个 复 淋 的 代谢 网 络 ， 在 这 个 过 程 中 ， 基 因为 集 白 质 编码 ， 
重 白 质 又 调节 其 他 基因 ， 还 有 一 长 串 的 化 学 反应 ， 而 产物 会 从 这 个 细胞 
名 运输 到 力 一 个 细胞 器 。 独 立 的 实体 ， 孤 立地 进行 工作 ， 找 不 到 任何 踊 
影 。 治 癌 药 物 必须 在 不 干扰 正常 细胞 的 情况 下 ， 打 破 癌 细胞 的 运转 。 如 
果 我 们 有 两 者 准确 的 关联 模型 ， 残 可 以 在 计算 机 中 尝试 许多 不 同 的 药 
物 ， 让 模型 推断 它们 好 的 以 及 不 好 的 效果 ， 然 后 只 将 最 好 的 留 下 ， 先 从 
体外 ， 最 后 再 从 体内 进行 测试 。 


就 像 人 类 的 记忆 ， 关 联 学 习 编 织 了 一 个 丰富 的 关联 网 。 它 连接 认 
知 ， 诸 如 多 比 之 类 的 机 器 人 可 以 通过 聚 类 和 维 数 简 约 来 获取 认 知 并 习 得 
技能 。 它 可 以 通过 强化 和 聚 类 来 学 习 ， 利 用 由 阅读 得 来 的 更 电 水 平 的 知 
识 去 学 校 与 人 类 进行 互动 。 关 联 学 习 是 最 后 一 块 拼图 ， 也 是 我 们 需要 为 
目 己 的 炼金 术 提 供 的 最 后 的 原料 。 现 在 是 时 候 重 建 实验 室 ， 使 所 有 这 些 
元 素 变 成 终极 算法 了 。 


机 需 学 习 既 是 科学 ， 也 是 技术 ， 两 者 的 特点 提示 我 们 如 何 将 其 统一 
起 来 。 在 科学 方面 ， 理 论 的 统一 往往 从 看 似 简 单 的 观察 开始 。 两 个 看 似 
不 相关 的 现象 原来 只 是 同一 枚 便 币 的 两 面 ， 就 像 第 一 张 倒 下 的 多 米 诡 骨 
牌 ， 会 引起 其 他 许多 牌 倒 下 。 平 果 落 到 地 上 ， 月 亮 悬 挂 在 夜空 ， 这 两 者 
都 是 由 重力 引起 的 ， 而 且 《〈 无 论 是 否 杜撰) 一 旦 牛顿 弄 明白 这 些 现象 的 
原因 ， 重 力 最 后 也 可 以 用 来 解释 潮汐 、 分 点 岁 兰 、 合 星 轨道 等 其 他 很 多 
现象 。 在 日 第 体验 中 ， 电 和 磁 绝 不 会 同时 出 现 ， 这 边 有 闪电 的 火花 ， 那 
边 有 吸 住 铁 制品 的 岩石 ， 两 种 现象 都 很 少见 。 可 是 一 旦 麦克 斯 书 弄 清楚 
电场 的 改变 会 产生 磁性 ， 反 之 亦 然 ， 显 然 内 电 是 两 者 亲密 的 媒介 。 现 在 
我 们 知道 ， 电 磁 并 不 罕见 ， 裔 及 所 有 物质 。 门 捷 列 夫 的 元 素 周 期 表 不 仅 
将 所 有 已 知 物质 仪 分 成 两 个 维度 ， 也 预示 哪里 会 有 新 元 素 。 达 尔 文 在 贝 
格 尔 写 上 的 观察 突然 得 到 理解 ， 因 为 蕊 尔 陕 斯 的 《人 口 论 》 表 明了 自然 
选择 这 一 组 织 原理 。 


当 死 里 元 和 沃 条 偶然 发 现 双 螺旋 结构 可 用 于 解释 DNA 令 人 迷惑 的 属 
性 时 ， 他 们 马上 就 看 到 DNA 可 能 会 如 何 复制 目 身 ， 而 生物 学 由 “ 集 
邮 ”( 户 琶 福 用 的 贬义 词 到 “统一 科学 ”的 过 渡 开 始 了 。 在 这 些 例子 
中 ， 各 种 各 样 令 人 眼花 综 乱 的 观察 结果 原来 都 有 同一 个 相同 的 起 因 ， 而 


一 旦 科学 家 们 明确 了 这 个 起 因 ， 就 可 以 反 过 来 利用 它 来 预测 许多 新 的 现 
象 。 同 样 的 道理 ， 虽 然 我 们 在 本 书 中 见 到 的 学 习 算 法 似乎 差别 很 大 一 一 
有 些 以 大 脑 为 基础 ， 有 些 以 进化 为 基础 ， 有 些 则 以 抽象 的 数学 原理 为 基 
础 ， 但 实际 上 ， 它 们 有 很 多 相似 之 处 ， 而 由 学 习 产 生 的 理论 会 有 许多 新 
的 观点 。 


虽然 知道 这 一 点 的 人 比较 少 ， 但 世界 上 许多 最 重要 的 技术 都 是 创造 
统一 物 的 结果 ， 该 统一 物 是 单一 机 制 ， 能 完成 之 前 需要 很 多 机 制 完成 的 
事情 。 互 联网 ， 正 如 它 的 名 字 一 样 ， 是 连接 相互 网 络 的 一 种 网 络 。 没 有 
它 ， 每 种 类 型 的 网 络 束 得 需要 一 个 不 同 的 协议 来 与 其 他 每 个 网 络 进行 对 
话 ， 这 就 很 像 对 于 世界 上 每 种 不 一 样 的 语言 都 需要 一 本 不 一 样 的 字典 。 
互联 网 协议 就 是 一 种 世界 语言 ， 会 给 每 全 计算 机 能 与 其 他 所 有 计算 机 直 
接 对 话 的 错 党， 世界 语言 还 允许 电子 邮件 和 网 页 忽视 那些 它们 无 法 起 到 
影响 作用 的 基础 设施 建设 的 细节 。 关 系数 据 库 也 会 对 企业 应 用 做 类 似 的 
事情 ， 人 允许 开发 商 和 用 户 依 据 抽象 关联 模型 进行 思考 ， 并 忽略 关于 回应 
搜寻 计算 机 所 尝试 的 方式 。 微 处 理 嚣 是 一 种 数据 电子 元 件 装配 ， 可 以 对 
所 有 其 他 装配 进行 模仿 。 虚 拟 机 允许 同一 台 计 算 机 同时 在 100 个 人 面前 
伪装 成 100 台 不 同 的 计算 机 ， 并 使 云 成 为 可 能 。 图 形 用 户 界 面 让 我 们 编 
辑 文 件 、 数 据 表 、 私 灯 片 以 及 别 的 很 多 东西 ， 利 用 Windows 操 作 系 统 、 
荣 单 、 鼠 标 单 击 的 通用 语言 。 计 算 机 本 身 就 是 统一 物 : 单个 设备 可 解决 
任何 人 逻辑 或 者 数学 问题 ， 只 要 我 们 知道 如 何 对 它 进行 编程 。 甚 至 电 也 是 
一 种 统一 物 ， 你 可 以 通过 许多 不 同 的 来 源 来 获取 它 一 一 炬 、 天 然 气 、 核 
能 、 水 力 、 风 力 、 太 阳 ， 然 后 以 无 限 多 种 的 方式 来 消耗 它 。 一 座 发 电站 
不 会 知道 或 者 关心 它 生 产 的 电 会 如 何 航 消耗 反 ， 而 你 的 门廊 灯 、 洗 碗 机 
或 者 全 新 的 特 斯 拉 也 不 会 在 意 电 力 供 应 来 目 哪 里 。 电 力 就 是 能 源 的 世界 
语言 。 终 极 算 法 是 机 器 学 习 的 统一 物 : 它 让 任意 应 用 利用 任意 学 习 算 
法 ， 方 法 是 将 学 习 算 法 概括 成 通用 形式 一 一 所 有 应 用 都 需要 知道 该 形 
Ne 


我 们 近 癌 终极 算法 的 第 一 步 会 简单 得 令 人 意外 。 事 实证 明 ， 要 将 许 


多 不 同 的 学 习 算法 结合 成 一 个 并 不 难 ， 利 用 的 就 是 元 学 习 。 网 尺 公 司 、 
还 森 、Kinect 以 及 其 他 无 数 公司 都 会 利用 它 ， 而 它 在 机 器 学 习 算 法 的 科 
袋 中 也 是 最 有 力量 的 一 支 。 它 还 是 接 下 来 要 进入 的 深层 次 统一 的 垫 肢 
石 。 


万 里 挑 一 


这 里 有 一 个 挑战 ， 你 有 15 分 钟 用 来 联合 决 集 树 、 多 层 感 知 器 、 分 类 
名 系统 、 朴 素 贝 叶 斯 ， 以 及 支持 问 量 机 ， 使 其 变 成 拥有 每 个 部 分 最 佳 属 
性 的 单一 算法 。 快 ! 你 能 做 什么 ? 显然 ， 这 不 能 涉及 单个 算法 的 细节 。 
没有 时 间 了 ， 但 接 下 来 怎么 办 ? 把 每 种 学 习 算 法 当成 委员 会 上 的 一 位 专 
家 ， 每 个 人 都 仔细 观察 竺 分 类 的 实例 一 一 这 个 患者 的 诊断 是 什么 ， 然 后 
有 把 握 地 做 出 预测 。 你 不 是 一 位 专家 ， 却 是 委员 会 主席 ， 你 的 工作 就 是 
把 他 们 的 意见 结合 成 一 个 最 终 决 定 。 你 手 上 的 问题 其 实 就 是 一 个 新 的 分 
类 问题 ， 这 种 情况 下 ， 输 入 不 是 患者 的 症状 ， 而 是 专家 的 观点 。 但 你 可 
以 将 机 器 学 习 以 同样 的 方式 运用 到 解决 这 个 问题 上 ， 专 家 也 会 这 样 将 其 
运用 到 最 初 的 问题 上 。 我 们 可 以 称 其 为 元 学 习 ， 因 为 它 就 是 要 了 解 学 习 
算法 。 元 学 习 算 法 本 身 可 以 是 任意 学 习 算法 ， 从 决策 树 到 简单 的 权 值 投 
容 。 为 了 掌握 权 值 或 者 决策 树 ， 我 们 利用 学 习 算 法 的 预测 来 代 亚 每 个 最 
初 例子 的 属性 。 经 钊 能 够 准确 预测 类 别 的 学 习 算 法 会 取得 较 高 的 权 值 ， 
而 不 准确 的 那些 则 容易 被 忽略 。 有 了 决策 树 ， 古 否 要 利用 学 习 算 法 可 能 
会 依照 其 他 学 习 算 法 的 预测 来 定 。 不 管 怎样 ， 为 了 给 既定 训练 例子 获取 
学 习 算 法 的 预测 ， 我 们 首先 必须 将 其 运用 到 原始 训练 集 “ 排 除 该 样 
本 ”中 ， 然 后 利用 最 终 的 分 类 占 ， 于 则 委员 会 残 有 被 拟 合 学 习 算 法 控制 
的 风险 ， 因 为 它们 可 以 通过 记忆 类 别 来 预测 准确 的 类 别 。 网 飞 奖 获 得 者 
利用 元 学 习 来 结合 数 百 个 不 同 的 学 习 算 法 ; 添 森 利用 它 来 从 备 选项 中 选 
择 最 终 的 答 采 ; 内 特 : 硕 尔 也 以 相似 的 方式 将 投票 与 预测 选举 结果 结合 


起 来 。 


这 种 类 型 的 元 学 习 被 称 为 “ 堆 琶 "， 是 大 卫 : 沃 尔 珀 特 的 创见 ， 在 第 
三 半 中 我 们 提 到 过 他 ， 他 是 “天 下 没有 免费 的 午餐 ”定理 的 创造 者 。 还 有 
一 个 更 简单 的 元 学 习 算法 是 “ 沪 袋 ”算法 ， 由 统计 学 家 里 奥 : 布 雷 曙 发 
明 。“ 闭 袋 ” 算 法 通过 重新 取样 的 方法 来 产生 训练 集 的 随机 变量 ， 将 同样 
的 学 习 算 法 应 用 到 每 个 训练 集中 ， 然 后 通过 投票 将 结果 络 合 起 来 。 做 这 
件 事 的 原因 是 它 可 以 减少 变量 : 组 合 模型 和 任何 单一 模型 相 比 ， 对 于 变 
约 更 测 的 数据 的 敏感 度 要 低 得 多 ， 这 样 提高 准确 度 就 变 得 很 容易 了 。 如 
果 模 型 是 决策 树 ， 且 我 们 通过 保留 属性 (这 些 属性 因 考 虑 每 个 节点 而 得 
来 ) 的 任意 子 集 来 进一步 改变 这 些 决策 树 ， 那 么 所 得 结果 就 是 所 谓 的 随 
机 和 森林。 随机 和 森林 到 处 是 一 些 准 确 的 分 类 占 。 微 软 公司 的 Kinect 利 用 它 
们 来 弄 清楚 你 在 做 什么 ， 而 且 它 们 会 经 常 在 机 右 学 习 比 赛 中 获胜 。 


最 聪明 的 元 学 习 算法 之 一 就 是 推进 ， 由 两 位 学 习 领 域 的 理论 家 约 阿 
夫 : 弗 多 因 德 和 罗 伯 : 夏 皮尔 创造 。 推 进 算法 不 是 通过 结合 不 同 的 学 习 算 
法 ， 而 是 将 相同 的 分 类 器 不 断 应 用 到 数据 中 ， 利 用 每 个 新 的 模型 来 纠正 
前 面 模型 的 错误 。 它 通过 将 权 值 分 布 给 训练 实例 的 方式 来 完成 这 件 事 。 
每 个 被 误 分 类 的 权 值 ， 在 每 轮 学 习 过 后 都 会 增长 ， 使 得 后 面 的 几 轮 会 更 
器 它 集 中 。 推 进 算法 的 名 字源 于 这 样 的 想法 : 该 过 程 可 以 推进 只 比 随 机 
猜 调 好 一 点 的 分 类 器 ， 但 如 果 持 续 如 此 ， 就 会 接近 完美 。 


元 学 习 非 常 成 功 ， 但 它 却 不 是 深入 组 合 模型 的 方法 。 另 外 ， 它 也 多 
贯 、 苛 刻 ， 因 为 会 做 很 多 轮 学 习 ， 而 且 组 合 模型 可 能 会 很 难民 〈“ 我 认 
为 你 有 前 列 腺 将 ， 因 为 决策 树 、 遗 传 算法 、 朴 素 贝 叶 斯 算法 都 这 么 判 
断 ， 昌 然 多 层 感 知 右 和 支持 向 量 机 反对 ”) 。 此 外 ， 所 有 的 组 合 模型 确 
实 只 是 一 个 巨大 而 次 乱 的 模型 。 难 道 我 们 不 能 找到 完成 同样 任务 的 单一 
学 习 算法 吗 ? 当然 可 以 。 


终极 算法 之 城 


我 们 的 统一 学 习 算 法 也 许 通过 延伸 离 言 可 以 得 到 最 好 的 介绍 。 如 宋 
机 絮 学 习 是 一 块 大 陆 ， 被 分 成 5 个 区 域 ， 那 么 终极 算法 束 是 首部 城市 ， 
本 立 在 5 个 区 域 会 合 的 特殊 地 珊 。 如 果 从 远 处 接近 它 ， 你 会 看 到 这 个 城 
市 由 3 个 同心 圆 组 成 ， 每 个 圆 被 一 墙 墙 围 着 。 外 围 的 圆 ， 也 是 最 宽 的 圆 
古 “ 优 化 城 ?。 这 里 的 每 个 房间 就 是 一 种 算法 ， 而 且 它们 有 不 同 的 形状 和 
面积 。 有 些 房 子 在 建设 中 ， 当 地 人 人 忙 着 围 着 它 团团 转 ， 有 些 房子 非常 条 
新 ; 有 些 房子 则 看 起 来 老 旧 充 废 。 山 的 更 高 处 是 “评价 城堡 "， 命 令 不 断 
从 它 的 大 厦 和 襄 典 向 下 面 的 算法 发 出 。 最 重要 的 是 ， 在 天 空 的 映衬 
下 ,“ 代 表 法 之 塔 ?枉然 而 立 ， 这 里 住 着 城市 的 统治 者 。 他 们 的 城市 有 不 
可 改变 的 法 律 ， 不 仅 规定 在 城市 范围 内 ， 而 且 规定 了 在 整个 大 陆 什么 能 
做 、 什 么 不 能 做 。 在 中 央 ， 最 高 的 塔 尖 飘 扬 着 终极 算法 的 旗帜 ， 颜 色 是 
红 和 黑 ， 上 面 的 五 角 星 围 着 我 们 无 法 理解 的 文字 。 


这 座 城 市 被 分 成 5 个 区 域 ， 一 个 区 域 属于 一 个 学 派 。 每 个 区 域 从 “ 代 
表 法 之 塔 ” 一 直 延 伸 至 城市 的 外 墙 ， 包围 了 塔 、“ 评 价 城堡 "里 的 一 群 宫 
殿 ， 以 及 它们 伪 匣 的 “优化 城 ” 的 街道 和 房屋 。 这 5 个 区 域 和 3 个 圆圈 将 城 
市 划分 成 15 个 区 域 、5 种 形状 ， 以 及 你 需要 解决 的 那 15 块 拼图 ( 见 图 9- 
1)s 
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图 9 -1 
你 专注 地 四 着 地 图 ， 试 图 解 开 它 的 谜底 。15 块 拼图 都 很 完美 地 拼 在 


一 起 ， 但 你 得 弄 清楚 它们 是 如 何 结合 起 来 的 ， 且 只 分 成 3 个 区 域 ， 终 极 
算法 的 代表 方法 、 评 价 、 优 化 部 分 。 每 种 学 习 算 法 都 有 这 3 个 部 分 ， 但 
不 同学 派 也 会 有 不 同 的 组 成 部 分 。 


代表 法 是 一 种 形式 语言 ， 利 用 这 种 语言 ， 学 习 算 法 会 表达 它 的 模 
型 。 符 写 学 派 的 形式 语言 是 逻辑 ， 其 中 规则 和 决 集 树 是 特殊 例子 。 联 结 


学 派 的 是 网 络 神 经 。 进 化 学 派 的 是 遗传 程序 ， 包 括 分 类 器 系统 。 贝 叶 斯 
学 派 的 是 图 解 模型 ， 这 是 贝 叶 斯 网 络 和 马尔 可 夫 网 络 的 涵盖 性 术语 。 类 
推 学 派 的 是 特例 ， 可 能 会 有 权 值 ， 束 像 在 文 持 癌 量 机 中 那样 。 


进化 学 派 的 主要 部 分 是 评分 函数 ， 判 断 一 个 模型 的 优 劣 程度 。 符 号 
学 派 用 的 古 准 确 度 或 者 信息 增益 。 联 结 学 派 利 用 的 是 连续 误 天 测量， 例 
如 ， 平 方 误差 ， 这 是 预期 值 与 真实 值 之 间 差 寞 的 平方 的 总 和 。 贝 叶 斯 学 
派 利 用 的 是 后 验 概率 。 类 推 学 派 〈 至 少 是 支持 向 量 机 这 种 类 型 利用 的 
是 边界 。 除 了 模型 与 数据 的 匹配 度 ， 所 有 的 学 派 都 会 考虑 其 他 合意 的 属 
性 ， 例 如 模型 的 简洁 度 。 


优化 是 一 种 算法 ， 即 寻找 最 高 得 分 的 模型 ， 并 回归 它 。 符 号 学 派 的 
特色 搜索 算法 是 逆向 演绎 。 联 结 学 派 的 是 梯度 下 降 。 进 化 学 派 的 是 遗传 
搜索 ， 包 括 交 叉 和 突变 。 贝 叶 斯 学 派 在 这 方面 不 同 寻 种 : 他 们 不 只 是 寻 
找 最 好 的 模型 ， 而 是 寻找 所 有 模型 的 平均 值 ， 由 它们 的 可 能 程度 来 权 
衡 。 为 了 有 效 进 行 加 权 ， 他 们 利用 诸如 MCMC 之 类 的 推理 算法 。 类 推 学 
派 ( 或 者 更 准确 地 说 是 支持 问 量 机 〉 利 用 约束 优化 来 找到 最 佳 模 型 。 


经 过 一 天 的 跋涉 之 后 ， 太 阳 快 速 接近 地 平 线 ， 而 你 要 在 天 黑 前 加 快 
速度 。 城 市 的 外 围墙 有 5 个 大 门 ， 每 个 门 由 一 个 学 派 掌控 ， 并 通 往 每 个 
学 小 在 “优化 城 ? 里 的 区 域 。 对 着 防 护 装 置 念 出 “深度 学 习 ” 的 口令 之 后 ， 
我 们 进入 “梯度 下 降 大 门 ”” 并 旋转 进入 “代表 法 之 塔 *。 大 街 从 门口 处 突 
然 治 着 山坡 上 升 ， 一 直 延 伸 到 城堡 的 “平方 误 状 大 门 ?， 但 你 却 要 问 左 转 
问 进 化 区 域 。 梯 度 下 降 区 域 的 房子 都 是 平滑 曲线 以 及 密切 交织 在 一 起 的 
模式 ， 看 起 来 几乎 更 像 一 个 从 林 ， 而 不 是 一 座 城市 。 但 当 梯 度 下 降 届 服 
于 遗传 搜索 时 ， 情 况 就 会 急剧 变化 。 到 这 里 时 ， 房 屋 会 升 得 更 高 ， 一 层 
结构 堆 在 男 一 层 之 上 ， 但 这 些 结构 稀少 ， 几 乎 没有 ， 似 乎 等 看 由 梯度 下 
降 的 曲线 来 填 满 。 束 是 这 样 : 结合 两 者 的 方法 就 是 利用 遗传 搜索 来 找到 
模型 的 结构 ， 然 后 让 梯度 下 降 来 填 满 它 的 参数 。 这 就 是 自然 所 做 的 事 : 
进化 创造 大 脑 结构 ， 而 个 人 经 历 则 对 这 些 结构 进行 调整 。 


第 一 步 完 成 了 ， 你 急忙 赶 往 贝 叶 斯 区 域 。 即 使 在 远 处 ， 你 也 可 以 看 
到 它 如 何 簇拥 着 “ 贝 叶 斯 定理 大 教堂 ”"， “MCMC 小 巷 ” 一 路 崇 虹 曲 折 。 这 
个 过 程 需要 一 段 时 间 。 你 抄 近 道 走 上 “置信 传播 街道 ”， 但 似乎 它 永 远 在 
绕 疾 循环 ， 然 后 你 看 到 它 了 一 一 “最 可 能 大 道 ” 同 着 “后 验 概率 大 门 ” 做 然 
屹立 。 不 用 对 所 有 模型 求 均值 ， 你 可 以 直接 奔 癌 最 适合 的 那个 ， 并 相信 
最 终 的 预测 会 几乎 一 样 。 而 你 可 以 让 基因 搜索 选择 模型 的 结构 和 梯度 下 
降 作 为 其 参数 。 轻 轻松 了 一 口气 ， 你 意识 到 这 就 是 你 需要 的 所 有 概率 推 
理 ， 人 至 少 持续 到 开始 利用 模型 回答 问题 的 时 候 。 


你 不 断 加 前 走 。 约 束 优化 区 域 是 罕 埠 和 和 死 明 同 组 成 的 迷宫 ， 各 种 各 
样 的 例子 到 处 紧 摊 ， 侦 尔 会 对 文 持 问 量 的 周围 进 行 清理 。 显 然 ， 为 了 避 
免 遇 到 错误 类 别 的 例子 ， 你 要 做 的 就 是 将 限制 条 件 添 加 到 已 经 聚合 的 优 
化 控制 右 中 。 但 回头 想 想 ， 这 并 不 一 定 有 必要 。 现 在 想起 来 了 ， 甚 至 这 
也 没 必要 。 当 我 们 学 习 支 持 向 量 机 时 ， 为 了 避免 过 拟 合 ， 已 经 让 边际 受 
到 侵犯 ， 只 要 每 次 违反 就 会 受到 惩 居 。 在 这 种 情况 下 ， 优 化 例子 权 值 可 
以 再 次 通过 桂 拔 降低 的 形式 来 确定 。 这 很 容易 ， 你 觉得 自己 开始 对 它 有 
所 了 解 了 。 


实例 稠密 的 排名 突然 中 断 ， 你 发 现 目 己 在 逆 同 演绎 区 域 ， 这 里 有 帘 
阔 的 大 街 和 古代 的 石头 建筑 。 这 里 的 建筑 是 几何 学 的 、 朴 素 的 ， 由 直线 
和 直角 组 成 。 即 使 经 过 很 大 程度 修 筋 的 树 有 和 拖 形 的 树干 ， 但 它们 的 叶子 
被 细致 地 贴 上 预测 的 类 别 。 该 区 域 的 大 民 似乎 用 特殊 的 方式 在 建造 他 们 
的 房子 : 他 们 从 屋顶 开始 ， 将 屋顶 标识 为 “结果 ”*”， 并 渐渐 地 将 天 论 板 与 
地 板 之 间 的 空隙 填补 ， 他 们 将 地 板 标 识 为 “前 提 ”。 一 个 接 一 个 地 ， 他 们 
找到 一 块 恰好 与 茶 个 空隙 吻合 的 石头 ， 然 后 将 其 移 到 合适 的 位 置 。 但 你 
注意 到 ， 许 多 空 陆 有 同样 的 形状 ， 而 在 这 些 石 头 形 成 该 形状 之 前 ， 切 割 
并 整合 石头 也 许 会 更 快 ， 然 后 尽 可 能 多 地 有 四 住 客人 。 换 句 话 说， 你 可 以 
利用 遗传 搜索 来 进行 逆向 演绎 。 巧 妙 ! 你 似乎 已 经 将 那 5 个 优化 程序 总 
结 为 一 个 简单 的 方法 : 遗传 搜索 用 于 结构 ， 而 梯度 下 降 用 于 参数 。 即 使 
那样 也 可 能 过 分 了 。 对 于 很 多 问题 ， 如 果 你 做 3 件 事 ， 可 以 将 遗传 搜索 


简化 为 息 山 法 一 一 省 去 交 文 ， 在 每 一 代 中 尝试 所 有 可 能 的 反 突 变 ， 并 一 
直选 择 单 个 最 优 假设 来 为 下 一 代 播 种 。 


头顶 的 雕像 是 什么 ? 亚 里 士 多 德 。 他 不 以 为 然 地 看 着 那 1/4 梯 度 下 
降 混 乱 地 纠缠 在 一 起 。 你 已 经 充分 进行 循环 ， 拥 有 了 为 得 到 终极 算法 而 
需要 的 统一 优化 器 ， 但 来 不 及 庆 视 一 下 ， 夜 大 降临 了 ， 你 要 做 的 还 有 很 
多 。 通 过 壮观 但 相当 狭窄 的 “准确 度 之 门 ”， 你 进入 “评价 城堡 "。 门 上 的 
铭文 写 着 :“ 汝 等 进入 此 地 ， 须 莽 绝 过 拟 合 之 希望 。” 随 着 你 循环 经 过 5 
个 学 派 鉴 别 器 的 蝇 磺 ， 在 心理 上 将 每 个 部 分 归 位 。 为 了 连续 性 预测 ， 你 
利用 准确 度 来 评价 “是 ”或 “ 否 ” 预 测 以 及 平方 误差 。 适 应 度 只 是 进化 学 派 
用 来 指 代 评分 函数 的 名 字 ， 你 可 以 将 它 当 作 你 想到 的 一 切 ， 包 括 准 确 度 
和 平方 误 关 。 如 果 你 忽略 先 验 概 率 ， 而 且 误差 遵循 正 态 分 布 ， 那 么 后 验 
概率 会 简化 为 平方 误工 。 如 果 你 允许 它 因为 价格 而 受到 违反 ， 边 际 就 会 
变 成 准确 度 更 加 柔软 的 版 本 一 一 对 于 准确 的 预测 不 是 不 进行 惩罚 ， 对 于 
不 准确 的 预测 则 基于 惩 神 ， 惩 罚 一 直 等 于 零 ， 直 到 你 进入 边际 ， 这 时 它 
开始 平稳 增长 。 哟 ! 结合 鉴别 器 比 结合 优化 器 要 简单 得 多 ， 但 “代表 法 
之 塔 ? 沙 停 在 你 上 空 ， 给 你 一 种 不 祥 的 预感 。 


你 进入 搜寻 的 最 后 阶段 ， 打 开 *“ 文 持 癌 量 之 塔 ?的 门 ， 一 位 看 起 来 面 
目 钴 铬 的 警卫 打开 它 ， 你 突然 意识 到 目 己 看 不 到 密码 。“ 核 心 。” 你 脱口 
而 出 ， 努 力 使 声音 不 显得 丝 坚 人 慌张。 警卫 鞠躬 然后 避 开 。 重 新 获得 士气 
后 ， 你 走 进 去 了 ， 并 会 因为 目 己 的 粗心 而 踊 上 自己 一 脚 。 塔 的 第 一 层 是 装 
修 豪 华 的 环形 室 ， 还 有 似乎 为 文 持 向 量 机 的 大 理 石 表达 法 占据 中 心 的 重 
要 位 置 。 当 你 在 它 周 围 走时 ， 注 意 到 远 的 那 边 有 一 个 门 ， 它 一 定 能 够 通 
过 中 心 塔 一 一 “终极 算法 之 塔 ?。 门 口 似乎 没有 警卫， 你 打算 抄 近 道 ， 悄 
悄 效 过 门廊 ， 走 到 一 条 不 长 的 走 亡 ， 友 现 目 己 置身 在 一 间 更 大 的 五 角 房 
屋 中 ， 每 堵 墙 上 都 有 一 扇 门 。 在 中 心 ， 一 个 螺旋 状 的 楼 梯 上 升 至 你 可 以 
看 到 的 位 置 。 你 听 到 上 面 的 声 首 ,然后 典 进 对 面 的 门 里 。 这 个 门 通 
往 “ 神 经 网 络 之 塔 *。 你 再 一 次 进入 环形 的 房间 ， 这 个 房间 的 中 心 有 一 个 
多 层 感 知 器 作为 装饰 品 ， 它 的 组 成 部 分 和 支持 癌 量 机 不 一 样 ， 但 布局 十 


分 相似 。 你 突然 发 现 ， 文 持 回 量 机 上 只 是 一 个 这 样 的 多 层 感 知 器 : 有 一 个 
由 内 核 而 不 是 S 曲 线 组 成 的 隐藏 层 ， 还 有 一 条 输出 信息 ， 是 一 个 线性 组 
合 ， 而 不 是 力 外 一 条 S 形 曲线 。 


难道 说 别 的 表示 方法 也 有 相似 的 形式 ? 越 来 越 觉得 刺激 。 你 穿 过 五 
角 星 房屋 ， 跑 回 “ 逻 辑 之 塔 ?。 看 独 中 心 一 组 规则 的 描述 ， 你 试 痢 辨别 一 
个 模式 。 是 的 ! 每 条 规则 只 是 一 个 高 度 程式 化 的 神经 元 。 例 如 ， 如 果 规 
则 是 “一 只 巨大 的 扑 行 动物 ， 然 后 会 噶 火 ， 那 么 它 束 是 一 条 龙 ”， 对 
于 “ 它 是 一 只 巨大 的 不行 动物 ”和 * 喷 火 ? 以 及 门 覃 值 1.5 来 说 ， 仅 仅 是 权 值 
为 1 的 感知 器 。 一 组 规则 集束 是 一 个 有 隐藏 层 的 多 层 感 知 右 ， 包 含 每 条 
规则 的 每 个 神经 元 ， 以 及 形成 规则 的 稀缺 的 输出 神经 元 。 在 脑海 深 处 有 
一 个 疑问 ， 但 你 现在 没有 时 间 解 决 它 。 当 你 穿 过 五 角 房 屋 走 到 “遗传 程 
序 之 塔 *? 时 ， 就 已 经 可 以 看 到 如 何 对 它们 进行 合并 。 遗 传 程序 也 只 是 程 
序 ， 而 程序 只 是 逻辑 构造 。 房 屋 中 遗传 程序 的 雕塑 是 树 的 形状 ， 子 程序 
会 分 成 更 多 的 子 程序 ， 当 你 仔细 看 叶子 时 ， 会 有 发现 它们 只 是 简单 的 规 
则 。 因 此 程序 归结 为 规则 ， 而 且 如 宁 规 则 可 以 简化 为 神经 元 ， 那 么 程序 
也 可 以 。 


不 幸 的 是 ， 在 “图 解 模型 之 塔 ?的 顶部 ， 环 形 房 屋内 的 雕像 与 其 他 的 
看 起 来 大 不 一 样 。 图 解 模 型 是 各 种 因 系 的 一 个 产物 : 条 件 概率 《在 贝 叶 
斯 网 络 条 件 下 〉 以 及 状态 的 非 负 函数 在 马尔 科 夫 网 络 条 件 下 ) 。 尺 管 
很 努力 ， 你 束 是 看 不 到 神经 网 络 或 者 规则 集 之 间 的 连接 ， 失 望 向 你 侵 小 
而 来 。 不 过 你 又 戴 上 “ 护 目镜 ”， 其 算法 可 以 代 答 每 个 函数 。 有 了 ! 此 时 
各 种 因素 的 产物 就 是 术语 的 总 和 ， 就 像 一 个 支持 向 量 机 、 一 个 投票 规则 
集 或 者 一 个 多 层 文 持 问 量 机 ， 没 有 输出 S 形 曲线 。 例 如 ， 你 可 以 将 一 个 
朴素 贝 叶 斯 龙 分 类 器 解释 成 一 个 感知 器 ， 对 于 “ 喷 火 "， 它 的 权 值 等 于 
P《 喷 火 | 龙 ) 的 log 值 减 去 P《〈 喷 火 | 不 是 龙 ) 的 log 值 。 当 然 ， 图 解 模 
型 比 这 个 还 要 概括 ， 因 为 它们 可 以 代表 许多 变量 的 概率 分 布 ， 而 不 仅仅 
是 给 定 其 他 变量 属性) 情况 下 的 一 个 变量 (类 别 ) 分 布 。 


你 做 到 了 ! 还 有 疑问 ? 吸收 文 持 问 量 机 变 成 神经 网 络 ， 吸 收 神经 网 
络 变 成 图 解 模 型 ， 起 作用 了 。 那 么 一 定 要 吸收 遗传 程序 变 成 逻辑 。 但 将 
逻辑 和 图 解 模 型 结合 在 一 起 ?此 处 有 一 点 莽 错 。 你 终于 看 到 问题 所 在 : 
逻辑 有 一 个 维度 ， 而 图 解 模 型 没有 ， 反 过 来 也 一 样 。 五 个 房屋 中 的 对 塑 
匹配 是 因为 它们 是 简单 的 语言 ， 但 事实 并 非 如 此 。 疼 解 模型 不 会 让 我 们 
表示 规则 时 涉及 的 对 象 超过 一 项 ， 就 像 “ 朋 友 的 朋友 是 朋友 ”， 它 们 所 有 
的 变量 必须 是 来 自 同一 对 象 的 属性 。 它 们 也 不 能 代表 任意 程序 ， 因 为 这 
些 程序 会 通过 一 组 组 通过 来 自 这 个 和 那个 子 集 的 变量 。 逻 辑 可 以 轻易 做 
到 这 些 事 ， 但 它 无 法 代表 不 确定 、 模 糊 或 者 相似 度 。 而 且 如 果 没 有 一 种 
能 做 所 有 这 些 事 的 表示 方法 ， 就 无 法 获得 通用 学 习 算 法 。 


你 绞 尺 脑汁 想 办 法 ， 但 你 越 努 力 ， 问 题 就 变 得 越 琼 手 。 也 许 将 逻辑 
和 概率 统一 起 来 超出 了 人 类 的 能 力 。 筋 疲 力 尽 的 你 渐渐 入 睡 。 突 然 ， 一 
声 低 沉 的 吼叫 把 你 吵 醒 了 。 一 只 多 头 复杂 怪物 扑 癌 你 ， 张 牙 舞 爪 ， 你 在 
最 后 一 刻 典 开 了 。 你 用 学 习 这 把 剑 猛 击 怪 物 ， 这 是 唯一 能 杀 死 怪物 的 武 
需 ， 最 后 你 顾 了 ， 把 它 所 有 的 头 砍 了 下 来 。 趁 它 还 没 长 出 新 的 头 ， 你 跑 
上 了 楼 。 


艰难 地 人 攀 爬 之 后 ， 你 到 达 楼 顶 。 此 时 有 一 场 婚 礼 正 在 进行 。 珀 莱 尔 
迪 卡 特 斯 (Praedicatus， 逻 辑 领 域 风 大臣 、 象 征 界 的 统治 者 以 及 程序 的 
保护 神 ) 对 马尔 科 维 雅 〈Markovia， 概 率领 域 的 公主 、 网 络 界 的 女皇 ) 
说 : “让 我 们 把 所 有 领域 都 统一 起 来 ， 你 应 当 往 我 的 规则 添加 权 值 ， 以 
产生 新 的 代表 方法 ， 可 以 进行 广泛 传播 。” 王 子 说 :“ 我 们 把 我 们 的 一 个 
个 后 代称 作 马 尔 科 夫 逻辑 网 络 。” 


你 的 头 有 些 尝 。 你 走 到 阳台 外 ， 太 阳 已 经 在 城市 上 空 升 起 。 你 的 目 
光 从 屋顶 投 癌 广阔 的 乡村 。 服 务 器 之 林 辐 各 个 方 问 延伸， 发 出 很 低 的 叭 
喻 声 ， 等 得 终极 算法 的 到 来 。 护 卫 沿 看 道路 移动 ， 从 数据 宝藏 中 取出 金 
子 。 西 边 很 远 的 地 方 ， 土 地 被 信息 之 海 占据 ， 散 布 着 船只 。 你 抬头 看 终 
极 算法 的 旗帜 ， 现 在 可 以 清晰 地 看 到 在 五 角 星 中 的 铭文 : 
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你 想 知 道 这 到 底 有 什么 含义 。 


马尔 科 夫 逻辑 网 络 


2003 年 ， 我 开始 思考 如 何 将 逻辑 和 概率 统一 起 来 ， 我 的 学 生 马 特 ; 
理 碍 森 也 加 入 进来 。 一 开始 我 们 进展 其 微 ， 因 为 我 们 正 试 图 利用 贝 叶 斯 
网 络 来 完成 这 件 事 ， 而 它们 的 固定 形式 一 一 变量 的 严格 顺序 、 依 据 父 母 
对 孩子 进行 的 有 条 件 分 布 一 一 与 多 辑 的 灵活 性 不 相 容 。 但 在 平安 夜 的 前 
一 天 ， 我 意识 到 有 一 个 好 很 多 的 办 法 。 如 果 我 们 切换 到 马尔 科 夫 网 络 ， 
可 以 利用 任何 逻辑 公式 作为 马尔 科 夫 网 络 特征 的 模板 ， 这 样 束 可 以 把 罗 
辑 和 图 解 模型 统一 起 来 了 。 看 看 我 们 怎么 做 到 的 。 


回想 一 下 ， 马 尔 科 夫 网 络 是 由 特征 的 加 权 和 来 定义 的 ， 这 一 点 很 像 
感知 器 。 假 设 我 们 有 一 些 人 类 的 图 片 ， 随 机 拿 起 一 张 ， 然 后 依据 它 的 特 
征 来 算出 概率 ， 例 如 , “这 个 人 有 白头 及 ”、“ 这 个 人 年 纪 大 了 ”、“ 这 个 
人 是 一 个 妇女 ”等 。 在 感知 器 中 ， 我 们 利用 一 个 门槛 值 来 使 这 些 特征 的 
加 权 和 通过 ， 以 决定 比如 ， 这 个 人 是 不 是 你 的 祖母 。 在 马尔 科 夫 网 络 
中 ， 我 们 会 做 一 点 不 一 样 的 事 《〈 至 少 乍 一 看 是 这 样 的) : 我 们 对 加 权 和 
进行 指数 化 ， 将 其 变 成 因 系 的 一 个 产物 ， 而 且 该 产物 是 从 这 批 图 片 中 选 
定 某 张 指定 照片 的 概率 ， 不 管 你 的 祖母 在 不 在 这 张 照 片 里 。 如 果 你 有 许 
多 老年 人 的 照片 ， 那 么 特征 的 权 值 就 会 上 升 ， 如 宋 他 们 中 的 多 数 人 都 是 
男人 ， 那 么 “这 个 人 是 一 个 妇女 ”的 权 值 就 会 下 降 。 特 征 可 以 是 我 们 想 要 
的 任何 东西 ， 使 马尔 科 夫 网 络 变 成 一 种 很 灵活 的 代表 概率 分 布 的 方法 。 


实际 上 ， 我 撤 说 了 : 因素 的 产物 还 不 是 概率 ， 因 为 所 有 图 片 出 现 的 
概率 加 起 来 一 定 等 于 1， 而 且 不 能 保证 万 有 图 片 的 因素 产物 都 会 这 样 。 


我 们 需要 使 它们 正 闻 化 ， 这 束 意 味 着 通过 它们 所 有 的 总 和 来 划分 每 个 产 
物 。 那 么 所 有 正规 化 产物 的 总 和 就 可 以 保证 是 1， 因 为 它 仅仅 是 一 个 由 
目 己 划分 的 数字 。 那 么 一 张 照片 的 概率 就 是 它 的 特点 的 权 值 和 ， 经 过 了 
指数 化 和 正规 化 。 如 果 你 回头 看 五 角 星 中 的 等 式 ， 你 可 能 会 微微 懂得 它 
的 含义 。P 是 一 个 概率 ，w 是 权 值 的 一 个 向 量 ，n 是 数字 的 辐 量 ， 而 它们 
的 点 积 “…* 被 2 指数 化 和 划分 ，Z 是 所 有 产物 的 上 总和。 如果 我 们 让 第 一 个 
组 成 部 分 n 为 1， 如 果 图 片 的 第 一 特征 不 是 真 束 是 零 等 ， 那 么 wn 也 仅仅 
古 我 们 一 直 以 来 谈论 的 、 特 征 权 值 总 和 的 速记 方法 。 


因此 根据 马尔 科 夫 网 络 ， 等 式 会 给 出 图 片 ( 或 者 随便 别 的 东西 ) 的 
概率 。 但 它 比 那 更 概括 ， 因 为 它 不 仅仅 是 马尔 科 夫 网 络 的 等 式 ， 而 是 马 
尔 科 夫 逻 辑 网 络 的 等 式 ， 正 如 我 们 称呼 它 的 那样 。 在 马尔 科 夫 逻辑 网 络 
(MLN) 中 ， 数 字 n 不 一 定 只 是 0 或 者 1， 而 且 它 们 不 指 代 特征 一 一 它们 
指 代 逻 辑 公式 。 在 第 八 章 的 结尾 部 分 ， 我 们 看 到 目 己 如 何 超越 马尔 可 夫 
网 络 到 达 关 联 模型 ， 这 些 模型 依据 特征 模型 而 不 只 是 模型 来 定义 。“ 爱 
丽 丝 和 鲍 动 都 患 有 流感 ”是 特定 于 爱丽 丝 和 鲍 肠 的 特点 。“X 和 Y 都 有 流 
感 ” 是 一 个 特征 模型 ， 可 以 和 爱丽 丝 和 鲍 勃 、 爱 丽 丝 和 克 里 斯 等 其 他 任 
意 两 人 实例 化 。 特 征 模型 很 有 力量 ， 因 为 它 可 以 利用 单个 短 表达 式 来 概 
括 几 十 亿 甚 至 更 多 的 特征 。 但 我 们 需要 正式 的 语言 来 定义 特征 模型 ， 而 
我 们 有 一 个 可 轻易 得 到 的 语言 一 一 逻辑 。 


一 个 MLN 只 是 一 组 逻辑 公式 及 其 权 值 。 当 应 用 到 特定 组 的 实体 
时 ， 在 这 些 实体 可 能 状态 的 基础 上 ， 它 定义 了 马尔 可 夫 网 络 。 例 如 ， 如 
果实 体 是 爱丽 丝 和 鲍 动 ， 可 能 的 状态 就是 爱丽 丝 和 鲍 动 是 朋友 ， 爱 丽 丝 
患 有 流感 ， 鲍 动 也 一 样 。 让 我 们 假设 MLN 有 两 种 公式 :“ 每 个 人 都 患 有 
流感 ?和 “如 果菜 些 人 患 有 流感 ， 那 么 他 们 的 朋友 也 患 有 流感 "。 在 标准 
逻辑 中 ， 这 就 是 一 对 坚 无 用 处 的 陈述 ， 第 一 个 陈述 会 排除 所 有 陈述 ， 即 
使 是 包含 一 个 健康 人 的 陈述 也 会 被 排除 ， 而 第 二 个 就 会 变 得 多 余 。 但 在 
MLN 中 ， 第 一 个 公式 仅仅 意味 着 有 一 个 特征 对 于 每 个 人 X 来 说 “X 患 有 流 
感 "， 和 公式 一 样 有 相同 的 权 值 。 如 果 人 们 可 能 有 流感 ， 公 式 束 会 有 较 


高 的 权 值 ， 相 应 的 特征 也 会 有 。 有 很 多 健康 人 的 陈述 的 可 能 性 ， 会 比 有 
少量 健康 人 的 陈述 要 小 ， 但 也 不 是 不 可 能 。 第 二 个 公式 ,，“ 尔 些 人 患 有 
流感 ， 而 他 们 的 朋友 没有 ”， 这 个 陈述 的 可 能 性 要 比 健康 人 和 受 感染 人 
群 朋友 群 不 一 样 的 陈述 的 可 能 性 要 小 。 


这 时 可 能 你 已 经 猜 到 mn 在 终极 算法 中 代表 什么 : 它 的 第 一 个 组 成 部 
分 是 陈述 中 第 一 个 公式 真实 实例 的 数量 ， 第 二 个 是 第 二 个 真实 实例 的 数 
量 ， 以 此 类 推 。 如 果 我 们 在 观察 一 个 有 10 个 朋友 的 小 组 ， 而 他 们 当中 有 
7 个 人 患 有 流感 ， 那 么 n 的 第 一 个 组 成 部 分 就 是 7， 以 此 类 推 (如果 
7/20， 而 不 是 7/110 的 朋友 有 流感 ， 难 道 概率 不 应 该 不 一 样 吗 ?是 的 ， 不 
一 样 ， 因 为 有 Z) 。 在 极限 情况 下 ， 如 果 我 们 让 所 有 权 值 趋 于 无 穷 大 ， 
马尔 可 夫 还 辑 就 会 简化 为 标准 逻辑 ， 因 为 违背 公式 的 单个 实例 ， 会 引起 
概率 暴跌 至 0， 使 陈述 变 得 不 可 能 。 在 概率 方面 ， 当 所 有 公式 讨论 单个 
话题 时 ，MLN 会 简化 为 马尔 可 夫 网 络 。 因 此 马尔 可 夫 轴 辑 包 含 罗 和 辑 和 
马尔 可 夫 网 络 两 个 特殊 案例 ， 而 这 是 我 们 过 去 寻找 的 统一 效果 。 


掌握 MLN 意 味 着 发 现世 界 上 真实 存在 的 公式 要 比 随机 因素 预测 出 
的 频率 要 高 ， 并 且 需 要 乔 明日 那些 公式 的 权 值 : 公 邢 使 它们 的 预测 概率 
与 它们 的 观察 频数 相 匹 配 。 一 旦 我 们 掌握 了 MLN， 束 可 以 利用 它 来 回 
答 诸 如 “如 末 鲍 动 和 爱丽 丝 是 朋友 ， 而 且 爱 丽 丝 患 有 流感 ， 那 么 鲍 动 患 
有 流感 的 概率 是 多 少 ” 此 类 问题 。 你 猜 怎 么 着 ?原来 概率 是 由 S 形 曲线 提 
供 的 ， 该 曲线 应 用 于 特征 的 加 权 和 ， 这 和 多 层 感知 器 很 相似 。 而 包含 长 
串 规则 的 MLN 可 以 表示 深度 神经 网 络 ， 在 规则 串 中 ， 每 层 会 有 一 个 链 
接 。 


当然 ， 不 要 因为 上 文 提 到 的 简单 MLN 预 测 了 流感 而 被 其 欺骗。 想 
象 一 下 用 MLN 诊 断 和 治愈 癌症 。MLN 代 表 细 胞 状态 下 的 概率 分 布 。 细 
胞 的 每 个 部 分 、 每 个 细胞 器 、 每 条 代谢 途径 、 每 个 基因 及 上 白细胞， 在 
MLN 中 都 是 一 个 实体 ， 而 MLN 的 公式 会 对 它们 之 间 的 差别 进行 编码 。 
我 们 可 以 询问 MLN: “这 个 细胞 将 变 了 吗 ? ”然后 利用 不 同 的 药物 对 它 进 


行 调查 ， 看 看 会 发 生 什 么 。 我 们 还 没有 这 样 一 个 MLN， 但 在 本 章 后 面 
我 会 设想 它 会 产生 。 


忆 的 来 说 ， 我 们 到 达 的 统一 学 习 算 法 利用 MLN 作 为 表示 方法 ， 利 
用 后 验 概率 作为 评估 函数 ， 利 用 与 梯度 下 降 结合 的 基因 搜索 作为 优化 
器 。 如 果 我 们 愿意 ， 可 以 轻易 地 利用 其 他 准确 度 汕 量 方法 来 代 符 后 验 概 
率 ， 或 者 利用 不 山 法 来 代 答 遗传 搜索 。 我 们 上 升 到 一 座高 峰 ， 现 在 我 们 
可 以 至 受 风 景 了 。 但 是 ， 我 不 会 那么 轻率 地 将 这 个 学 习 算法 称 作 终极 算 
法 。 一 方面 ， 布 丁 的 味道 好 不 好 ， 吃 了 才 知 道 ， 而 且 虽 然 过 去 10 年 这 种 
算法 (或 者 它 的 变化 版 本 ) 已 经 成 功 应 用 于 许多 领域 ， 但 还 是 有 许多 领 
域 没 有 应 用 到 它 ， 因 此 还 不 清楚 它 的 一 般 用 途 。 男 一 方面 ， 它 还 有 一 些 
重要 的 问题 没有 解决 。 在 看 这 些 问 题 前 ， 让 我 们 先 看 看 它 能 做 什么 。 


从 休 庶 到 你 的 家 用 机 郁 人 


你 可 以 从 alchemy.cs.washington.edu 这 个 网 站 下 载 我 刚才 描述 的 学 习 
算法 。 用 “ 烁 金 术 ”来 为 它 命名 是 为 了 提醒 我 们 ， 虽 然 它 取得 了 成 功 ， 但 
机 器 学 习 仍 然 处 于 科学 的 炼金 术 阶 段 。 如 果 把 它 下 载 下 来 ， 你 会 看 到 它 
包含 的 东西 要 比 我 描述 过 的 基础 算法 多 得 多 ， 但 是 它 也 缺少 几 个 我 之 前 
说 的 通用 学 习 算 法 该 有 的 东西 ， 比 如 交叉 。 虽 然 如 此 ， 为 了 简单 ， 让 我 
们 利用 “炼金 术 ” 来 指 代 我 们 的 备用 通用 学 习 算法 。 


炼金 术 解 决 了 休 诬 的 原始 问题 ， 方 法 就 是 除了 数据 ， 要 拥有 其 他 的 
输入 东西 : 你 的 原始 知识 ， 依 据 一 组 逻辑 公式 ， 有 还 是 没有 权 值 。 公 式 
可 能 不 一 致 、 不 完整 甚至 完全 错误 ， 学 习 以 及 概率 推理 行为 会 关照 那 件 
事 。 关 键 点 在 于 烁 金 术 不 必 从 零 开始 学 习 。 实 际 上 ， 我 们 甚至 可 以 用 烁 
金 术 来 让 公式 保持 不 变 ， 然 后 只 对 权 值 进行 学 习 。 在 这 种 情况 下 ， 给 予 
炼金 术 恰 当 的 公式 可 以 将 其 变 成 玻 尔 兹 曼 机 、 贝 叶 斯 网 络 、 实 例 学 习 算 


法 以 及 许多 别 的 模型 。 这 解释 了 为 什么 虽然 存在 “天 下 没有 人 免费 的 午 
餐 ” 的 定理 ， 但 可 以 有 通用 学 习 算法 。 更 确切 地 说 ， 炼 金 术 就 像 一 台 归 
纳 图 录 机 ， 我 们 可 以 对 图 灵机 进行 编程 ， 使 其 行动 起 来 像 非 党 有 力量 的 
或 者 受到 极 大 限制 的 学 习 算法 ， 这 取决 于 我 们 。 炼 金 术 为 机 器 学 习 提 供 
统一 物 ， 就 像 互联 网 为 计算 机 网 络 、 关 联 模型 为 数据 库 ， 或 者 图 形 用 户 
界面 为 日 党 应 用 提供 统一 物 那样 。 


当然 ， 虽 然 你 使 用 的 烁 金 术 没有 原始 工具 《而 且 你 可 以 ) ， 这 并 不 
会 让 筷 不 包 合 知识。 形式 语言 、 评 分 函数 、 优 化 硕 会 暗 目 对 关于 世界 的 
猜想 进行 编码 。 因 此 可 以 自然 地 问 我 们 是 否 有 比 炼金 术 更 通用 的 学 习 算 
法 。 当 进化 从 第 一 个 细胞 开始 它 的 长 途 之 旅 ， 一 直到 当今 所 有 的 生命 形 
式 时 ， 进 化 会 做 出 什么 假设 ? 我 认为 有 一 个 简单 的 假设 ， 所 有 其 他 的 假 
设 都 会 齐 循 这 个 假设 : 学 习 算 法 是 世界 的 组 成 部 分 。 这 就 意味 独 ， 学 习 
算法 作为 一 种 实体 系统 ， 和 它 的 环境 一 样 会 遵循 相同 的 规律 ， 无 论 这 个 
规律 是 什么 ， 我 们 都 已 经 暗暗 “知道 * 它 ， 并 做 好 准备 去 发 现 它 。 在 接 下 
来 的 部 分 中 ， 我 们 会 看 到 这 个 规律 具体 意味 看 什么 ， 以 及 如 何在 炼金 术 
中 体现 它 。 就 目前 而 言 ， 我 们 注意 到 ， 它 可 能 是 我 们 能 回答 的 休 庶 问题 
中 最 好 的 答案 :一 方面 ， 假 设 学 习 算 法 是 世界 的 组 成 部 分 是 一 种 猜想 
原则 上 是 这 么 说 ， 因 此 筷 满 足 休 庶 的 宣言 ， 认 为 学 习 仅 适用 于 先 验 
知识 ;， 男 一 方面 ， 这 是 一 个 多 么 基础 而 且 难 以 反 驶 的 猜想 ， 也 许 这 就 是 
我 们 对 于 世界 所 需要 的 所 有 东西 。 


在 忆 一 个 极端 ， 知 识 工程 师 一 一 机 器 学 习 最 坚定 的 批评 者 一 一 有 好 
的 理由 来 喜欢 炬 金 术 。 不 用 基本 模型 结构 或 者 儿 次 大 概 的 猜想 ， 炼 金森 
可 以 导入 一 个 大 型 、 细 致 的 装配 知识 基地 《如 果 它 可 用 ) 。 因 为 概率 规 
则 与 确定 性 规则 相 比 ， 互 动 的 方式 更 为 丰富 ， 所 以 手工 编码 的 知识 在 马 
尔 科 夫 逮 辑 中 会 更 深入 。 马 尔 科 夫 逻辑 中 的 知识 基地 不 一 定 要 首尾 一 
致 ， 它 们 可 以 变 得 很 大 并 容纳 许多 不 同 的 主要 因素 而 不 会 月 溃 一 这 是 
一 个 目前 为 止 让 知识 工程 师 迷 惑 的 目标 。 


虽然 如 此 ， 很 多 时 候 炼 金 术 会 解决 机 器 学 习 中 每 个 学 派 钻 研 了 很 久 
的 问题 。 让 我 们 反 过 来 看 看 它们 是 什么 。 


符号 学 家 结合 运算 中 不 同 雁 片 的 知识 ， 这 和 数学 家 结合 公理 来 证 明 
定理 是 一 个 道理 。 这 和 神经 网 络 和 其 他 有 固定 结构 的 模型 迎 然 不 同 。 烁 
金 术 利 用 逻辑 来 完成 这 件 事 ， 正 如 符号 学 派 所 做 的 那样 ， 却 是 一 个 迁 回 
曲折 的 过 程 。 为 了 证 明 逻 辑 中 的 定理 ， 你 需要 发 现 产 生 该 定理 的 公理 应 
用 的 唯一 顺序 。 因 为 炼金 术 从 可 能 性 的 角度 谈 到 其 实 它 要 做 得 更 多 : 找 
到 公式 的 多 重 序列 ， 引 出 定理 或 者 它 的 人 否定 面 ， 然 后 对 它们 进行 权衡 ， 
以 计算 出 定理 真实 的 概率 。 这 样 它 能 推理 的 不 仅 与 数学 共性 有 关 ， 还 可 
以 推理 在 一 则 新 闻 报 道中 的 “总 统 ” 指 的 是 不 是 “ 巴 拉 克 :奥巴马 ”， 或 者 一 
封 邮件 该 在 哪个 文件 夹 之 下 。 符 号 学 派 的 主 算法 一 一 逆向 演绎 ， 假 定 新 
的 逻辑 规则 ， 用 于 作为 数据 与 预期 结论 之 间 的 步骤 。 和 炼金 术 通过 爬山 法 
来 介绍 新 的 规则 ， 以 原始 规则 作为 开始 ， 与 原始 规则 和 数据 相 结合 ， 构 
建 使 结果 概率 更 大 的 规则 。 


关联 学 派 模 型 的 灵感 来 源 于 大 脑 ，S 形 曲线 的 网 络 与 神经 元 相对 

应 ， 它 们 之 间 的 加 权 关 联 对 应 的 是 突 触 。 利 用 炼金 术 ， 如 果 两 个 变量 在 
茶 个 公式 中 一 起 出 现 ， 那 么 它们 就 修 联 结 在 一 起 ， 考 虑 到 近邻 ， 一 个 变 
量 的 概率 就 是 一 条 S 形 曲线 我 不 会 解释 为 什么 ， 这 是 我 们 在 前 面部 分 
看 到 的 主 算法 的 直接 结果 〉 。 联 结 学 派 的 主 算 法 是 反 加 传播， 他 们 利用 
它 来 弄 清楚 哪个 神经 元 负责 哪些 误差 ， 并 根据 它们 的 权 值 来 进行 调整 。 
反问 传播 是 梯度 下 降 的 一 种 形式 ， 炼 金 术 用 它 来 优化 马尔 科 夫 由 辑 网 络 
权 值 。 


进化 学 派 利用 遗传 算法 来 模仿 上 自然 选择 。 遗 传 算法 包含 假设 的 < 人 
口 ”"， 在 每 一 代 中 ， 适 应 能 力 最 强 的 会 进行 交 义 和 变异 ， 以 生产 下 一 
代 。 炬 金 术 以 加 权 公 式 的 形式 来 维持 假设 的 ”人 口 ?， 在 每 一 步 中 以 不 同 
的 方法 对 它们 进行 改变 ， 然 后 把 那些 最 能 提高 数据 (或 者 一 些 其 他 的 评 
分 函数 ) 后 验 概率 的 变量 留 下 。 如 果 人 口 古 一 个 单一 假设 ， 这 就 简化 为 


疏 山 法 了 。 当 前 炼金 术 的 开源 实施 并 不 包含 交叉 ， 但 这 就 是 一 个 简单 的 
加 法 。 进 化 学 派 的 主 算法 是 遗传 编程 ， 应 用 交叉 和 突变 于 计算 机 程序 
上 ， 以 子 集 树 的 形式 表示 出 来 。 子 集 树 可 以 用 一 组 逻辑 规则 来 表示 ， 
Prolog 编 程 语言 就 是 这 么 做 的 。 在 Prolog 中 ， 每 个 规则 与 一 个 子 集 对 
应 ， 而 它 前 面 的 规则 是 它 称呼 的 子 集 。 因 此 我 们 可 以 将 带 有 交叉 的 炼金 
术 当 作 利 用 Prolog 相 似 编 程 语言 的 遗传 编程 ， 这 样 会 有 一 个 额外 的 优势 
一 一 规则 可 以 是 概率 性 的 。 


贝 叶 斯 学 派 相 信 模 拟 不 确定 性 是 学 习 的 关键 ， 并 利用 形式 表示 方法 
如 贝 叶 斯 网 络 和 马尔 科 夫 网 络 来 工作 。 正 如 我 们 已 经 看 到 的 那样 ， 马 尔 
科 夫 网 络 是 MLN 的 特殊 类 型 。 贝 叶 斯 网 络 利 用 MLN 主 算法 也 可 以 轻易 
表示 出 来 ， 一 个 特征 对 应 一 个 变量 及 其 起 源 的 每 个 可 能 状态 ， 而 相应 条 
件 概 率 的 算法 则 作为 它 的 权 值 (然后 归 一 化 常数 Z 就 便利 地 简化 为 1， 意 
味 着 我 们 可 以 忽略 它 )。 贝 叶 斯 的 主 算法 是 贝 叶 斯 定理 ， 执 行 的 方法 是 
利用 概率 推理 算法 ， 比 如 置信 传播 和 MCMC。 正 如 你 已 经 注意 到 的 那 
样 ， 贝 叶 斯 定理 是 主 算法 的 特例 ， 包 含 P=P (A | B) ，Z=P (B) ， 而 
特征 和 权 值 对 应 P (A) 和 P (B | A) 。 炼 金 术 系统 包含 置信 传播 和 
MCMC 用 于 推理 ， 推 广 至 处 理 加 权 届 辑 公式 。 将 概率 推理 用 于 对 逻辑 提 
供 的 证 明 路 线 上 ， 炼 金 术 为 文 持 或 者 反对 结局 来 权衡 证 据 ， 并 输出 结局 
的 可 能 概率 。 这 与 符号 学 派 利用 的 “单纯 功能 ”逻辑 相反 ， 该 逻辑 不 是 全 
有 就 是 全 无 ， 因 此 当 给 定 矛 盾 证 据 时 ， 该 逻辑 就 会 朋 误 。 


类 推 学 派 的 学 习 方 法 是 假设 有 已 知 相 似 属性 的 实体 ， 也 会 有 相似 的 
未 知 属性 : 拥有 相似 症状 的 病人 也 会 有 相似 的 诊断 ， 过 去 喜欢 买 菏 类书 
的 读者 可 能 未 来 还 会 买 同样 的 书 ， 等 等 。MLN 可 以 代表 具有 像 “ 拥 有 相 
同 品 位 的 读者 会 买 相 同 的 书 ” 公 式 的 实体 之 间 的 相似 性 。 爱 丽 丝 和 鲍 动 
买 到 的 相同 的 书 越 多 ， 他 们 越 可 能 有 相同 的 品位 ， 将 相同 的 公式 应 用 
于 相反 方 辐 中 〉 如 果 鲍 动 买 一 本 书 ， 爱 丽 丝 也 买 这 本 书 的 概率 束 比 较 
大 。 他 们 的 相似 性 由 他 们 有 相同 品位 的 概率 来 表示 。 为 了 使 这 一 方法 真 
正 起 作用 ， 对 于 相同 规则 的 不 同 实例 ， 我 们 可 以 有 不 同 的 权 值 ， 如 果 爱 


丽 丝 和 鲍 动 都 买 了 菜 本 罕见 的 书 ， 这 包含 的 信息 量 也 许 会 比 他 们 购买 畅 
销 书 的 信息 量 大 ， 因 此 应 该 有 更 高 的 权 值 。 在 这 种 情况 下 ， 相 似 度 由 我 
们 计算 的 属性 是 离散 的 〈 买 或 者 不 买 )， 但 我 们 也 可 以 在 连续 属性 之 间 
表示 相似 度 ， 就 像 两 座 城 市 之 间 的 距离 一 样 ， 方 法 就 是 让 MLN 把 这 些 
相似 性 当 作 特点 。 如 果 评 估 函 数 是 一 个 边际 风格 评分 函数 ， 而 不 是 后 验 
概率 ， 结 采 就 是 文 持 问 量 机 的 概括 版 ， 也 就 是 类 推 学 派 的 主 算法 。 我 们 
的 主 学 习 算 法 面临 的 更 大 挑战 是 复制 结构 地 图 ， 这 是 类 比 更 强大 的 类 
型 ， 可 以 从 这 个 域 〈 比 如 太阳 系 ) 推 关 到 另外 一 个 域 “ 原 子 ) 。 我 们 可 
以 通过 学 习 公 式 来 做 到 这 一 点 ， 这 些 公式 不 会 指 代 源 域 中 的 任何 特定 关 
系 。 例 如 ,， “抽烟 的 人 的 朋友 也 抽烟 * 讲 的 是 友谊 和 抽烟 ， 但 “相关 的 实 
体 有 相似 的 属性 ”适用 于 任何 关系 和 属性 。 我 们 可 以 通过 概括 “朋友 的 朋 
友 也 抽烟 ， 专 家 的 同事 也 是 专家 ?来 掌握 它 ， 还 有 在 社区 网 络 中 其 他 这 
样 的 模式 ， 然 后 将 其 应 用 到 诸如 网 页 之 类 的 地 方 ， 包 含 像 “有 趣 的 网 页 
会 链接 到 有 趣 的 网 页 ”这 样 的 实例 ， 或 者 应 用 于 分 子 生物 学 中 ， 包 含 
像 “ 与 保 白 质 调控 互动 的 熏 白 质 也 会 调控 基因 ”这 样 的 实例 。 我 的 小 组 的 
研究 人 员 和 其 他 人 已 经 完成 所 有 这 些 事 ， 接 看 还 会 做 更 多 。 


炼金 术 也 可 以 启动 我 们 在 第 八 章 提 到 的 5 种 无 监督 学 习 。 显 然 ， 它 
会 进行 关系 学 习 ， 实 际 上 ， 这 就 是 它 很 多 已 应 用 的 地 方 。 炼 金 术 利用 逻 
辑 来 代表 实体 之 间 的 关系 ， 以 及 用 马尔 科 夫 网 络 来 使 它们 自己 变 得 不 确 
定 。 我 们 可 以 将 炼金 术 变 成 强化 学 习 算法 ， 方 法 就 是 利用 奖励 环绕 它 ， 
并 利用 它 来 掌握 每 种 状态 的 值 ， 这 和 传统 强化 学 习 算 法 利用 的 方法 一 
样 ， 比 如 神经 网 络 。 我 们 可 以 在 炼金 术 内 部 进行 组 块 ， 方 法 就 是 添加 一 
种 新 的 运算 ， 这 种 运算 会 将 一 串 串 的 规则 变 成 单个 规则 《例如 , “如果 A 
那么 B， 如 果 B 那 么 C， 如 果 A 那 么 C”) 。 一 个 带 有 单个 未 观察 到 变量 
〈 且 该 变量 与 所 有 可 观察 变量 相 联结 ) 的 MLN 会 进行 聚 类 〈 未 观察 到 
变量 是 这 样 一 个 变量 : 我 们 从 未 在 数据 中 见 过 它 的 值 ， 是 “隐藏 的 ”， 可 
以 这 么 说 ， 只 能 通过 推断 得 出 ) 。 包 含 一 个 以 上 未 观察 到 变量 的 
MLN， 通 过 由 可 观察 变量 〈 数 量 更 多 ) 推 类 那些 变量 〈 数 量 更 少 ) 的 
值 的 方法 ， 来 进行 离散 降 维 。 炼 金 术 也 可 以 利用 连续 未 观察 到 变量 来 处 


理 MLN， 这 些 变量 会 在 诸如 主要 成 分 分 析 、 等 距 映 射 的 过 程 中 用 到 。 
因此 ， 原 则 上 说 ， 炼 金 术 可 以 做 所 有 我 们 让 机 器 人 罗 比 做 的 事 ， 或 者 至 
少 所 有 我 们 在 本 书 中 讨论 过 的 事 。 的 确 ， 我 们 已 经 利用 炼金 术 来 让 机 获 
人 竺 握 其 所 在 环境 的 地 图 ， 通 过 它 的 传 感 占 弄 明 白 哪里 是 墙 、 哪 里 是 
门 ， 以 及 它们 的 角度 和 距离 等 ， 这 是 制造 称职 家 用 机 磊 人 的 第 一 步 。 


最 终 ， 我 们 可 以 将 炼金 术 变 成 一 种 元 学 习 算 法 ， 比 如 通过 将 个 体 分 
类 器 编码 成 MLN 来 进行 堆 闭 ， 添 加 公式 或 者 学 习 公式 以 将 它们 结合 起 
来 。 这 就 是 DAPRA 在 其 个 性 化 学 习 助 手 (PAL) 项 目 中 所 做 的 。PAL 是 
DARPA 历 史上 最 大 型 的 人 工 智 能 工程 ， 也 是 Siri 的 祖先 。PAEL 的 目标 是 
构建 自动 化 秘书 。 它 利用 马尔 科 夫 逻辑 来 作为 其 支配 一 切 的 表示 方法 ， 
将 来 自 不 同 模 块 的 输出 融合 到 该 做 什么 的 最 终 决 定 中 。 这 也 人 允许 PAL 的 
模块 通过 追求 统一 意见 来 彼此 互相 学 习 。 


目前 炼金 术 最 大 的 应 用 在 于 从 网 络 中 学 习 语义 网 络 〈 或 者 谷歌 所 谓 
的 知识 图 谱 ) 。 一 个 语义 网 络 就 是 一 组 概念 〈 就 像 行星 与 恒星 ) 以 及 这 
些 概念 中 的 关系 《行星 环绕 恒星 ) 。 炼 金 术 会 通过 从 网 页 中 提取 的 事实 
(例如 ， 地 球 绕 着 太阳 转 ) 来 掌握 100 万 个 以 上 这 样 的 模式 。 它 会 独自 
发 现 诸 如 行星 之 类 的 概念 。 我 们 之 前 使 用 过 的 版 本 ， 比 我 在 此 已 经 描述 
过 的 基本 版 要 先进 ， 但 基本 思想 是 一 样 的。 各 式 各 样 的 研究 已 经 利用 炼 
金 术 或 者 他 们 目 己 的 MLN 执 行 工具 来 解决 目 然 语言 处 理 、 计 算 机 视 
觉 、 动 作 识别 、 社 会 网 络 分 析 、 分 子 生物 学 及 其 他 许多 领域 中 的 问题 。 


尽管 成 功 了 ， 烁 金 术 还 是 有 一 些 明显 的 不 足 之 处 它 还 没有 真正 扩 
展 到 大 数据 ， 而 一 些 在 机 器 学 习 领 域 没 有 博士 学 位 的 人 会 及 现 它 很 难 使 
用 。 因 为 这 些 问题 ， 它 还 没有 准备 就 红 ， 让 我 们 看 看 能 对 它们 做 些 什 
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在 计算 机 科学 中 ， 如 果 一 个 问题 没 能 得 到 有 效 解决 ， 它 就 没有 真 的 
得 到 解决 。 如 果 你 不 能 在 可 用 时 间 和 记忆 内 完成 一 件 事 ， 那 么 知道 这 件 
事 怎 么 做 并 没有 多 大 用 处 ， 因 为 在 你 处 理 MLN 时 ， 这 些 时 间 和 记忆 会 
消耗 得 很 快 。 通 常 我 们 利用 数 百 万 的 变量 和 数 十 亿 的 特征 来 对 MLN 进 
行 学 习 ， 但 这 并 不 像 表面 看 起 来 的 那么 大 规模 ， 因 为 变量 的 数量 会 随 着 
MLN 中 实体 的 数量 迅速 增长 一 一 如 果 你 有 一 个 包含 1000 人 的 社交 网 
络 ， 你 就 已 经 拥有 100 万 对 可 能 的 朋友 ， 以 及 10 亿 个 “朋友 的 朋友 是 朋 
友 ” 公 式 的 实例 。 


炼金 术 中 的 推理 是 逻辑 与 概率 推理 的 结合 。 前 者 通过 证 明定 理 来 完 
成 ， 后 者 则 通过 置信 传播 、MCMC 以 及 我 们 在 第 六 章 中 见 过 的 其 他 方法 
来 完成 。 我 们 将 两 者 结合 至 概率 定理 证 明 中 ， 统 一 推理 算法 可 以 计算 任 
意 逻 辑 公 式 的 概率 ， 是 当前 炼金 术 系 统 的 关键 部 分 。 但 在 计算 法 方面 ， 
它 需 要 的 很 多 。 如 果 你 的 大 脑 利 用 概率 定理 证 明 ， 那 么 一 只 老虎 会 在 你 
没 来 得 及 想 明 白 如 何 逃 离 时 就 把 你 吃 掉 ， 这 就 是 马尔 科 夫 逻辑 一 般 性 的 
高 昂 代 价 。 你 的 大 脑 在 真实 世界 中 己 经 进化 ， 必 须 对 额外 的 猜想 进行 编 
码 ， 这 样 有 利于 它 进 行 有 效 推理 。 在 过 去 儿 年 中 ， 我 们 已 经 开始 弄 清楚 
它们 可 能 是 什么 ， 并 将 其 编码 入 炼金 林 。 


这 个 世界 并 不 是 由 随意 杂乱 的 相互 关系 组 成 的 ， 它 有 等 级 结构 : 星 
系 、 行 星 、 大 陆 、 国 家 、 城 市 、 社 区 、 你 的 家 、 你 、 你 的 头 、 你 的 自 
子 、 其 顶部 的 细胞 、 它 里 面 的 细胞 右 、 分 子 、 原 子 、 亚 原子 粒子 。 那 么 
模拟 世界 的 方法 会 用 到 MLN， 也 有 等 级 结构 。 这 是 一 个 猜想 的 例子 ， 
学 习 算 法 和 环境 都 相似 。MLN 不 需要 知道 ， 基 于 假定 ， 世 界 由 哪些 部 
分 组 成 。 炼 金 术 要 做 的 ， 就 是 假设 世界 有 奋 干 个 组 成 部 分 ， 然 后 将 这 些 
部 分 找 出 来 。 这 很 像 一 个 刚 做 好 的 书架 ， 假 设 有 大 和 干 书 ， 但 还 不 知道 哪 
些 书 会 放 在 书架 上 。 等 级 结构 有 助 于 使 推理 更 易于 处 理 ， 因 为 世界 的 子 
部 分 更 多 的 是 会 与 同 部 分 的 子 部 分 互动 ， 比 如 ， 邻 大 彼 此 之 间 的 交流 会 
多 于 与 其 他 国家 人 民 的 交流 ， 由 同一 个 细胞 产生 的 分 子 也 会 更 多 地 与 那 
个 细胞 的 其 他 分 子 进行 反应 。 


另外 一 个 使 学 习 和 推理 变 得 更 容易 的 属性 ， 就 是 存在 于 世界 的 实体 
不 会 以 任意 形式 出 现 。 它 们 会 分 成 不 同 的 类 别 和 子 类 别 ， 来 自 同 一 等 级 
的 成 员 之 间 的 相似 性 会 大 于 来 自 不 同等 级 成 员 之 间 的 相似 性 。 有 生命 的 
或 者 无 生命 的 ， 动 物 或 者 植物 ， 马 类 或 者 哺乳 类 ， 人 类 或 者 非 人 类 ， 如 
打 我 们 知道 与 当前 问题 相关 的 所 有 特质 ， 就 可 以 将 所 有 这 些 特质 以 及 可 
以 节省 很 多 时 间 的 实体 合 在 一 起 。 像 以 前 那样 ，MLN 不 用 知道 基于 假 
定 的 世界 上 的 类 别 是 什么 ， 它 可 以 通过 分 级 聚 类 来 从 数据 中 掌握 这 些 类 
别 。 


世界 包含 各 个 部 分 ， 而 每 个 部 分 又 属于 不 同类 别 ， 将 这 些 部 分 和 类 
别 结合 起 来 ， 这 样 使 炼金 术 中 的 推理 变 得 易于 处 理 所 需 要 的 东西 就 已 经 
基本 齐全 。 我 们 可 以 掌握 世界 的 MLN， 方 法 就 是 将 其 分 解 成 若干 部 分 
和 子 部 分 〈 这 样 多 数 互 动 关 系 吏 存在 于 同一 部 分 的 子 部 分 之 间 ) ， 然 后 
将 各 个 部 分 集合 成 类 别 和 子 类 别 。 如 宁 世 界 是 一 个 乐高 玩具 ， 那 么 我 们 
将 其 分 解 为 一 块 块 * 砖 ?”， 记 住 哪 块 和 哪 块 相连 ， 然 后 通过 形状 和 颜色 来 
将 “ 砖 块 集合 起 来 。 如 果 这 个 世界 是 维基 百科 ， 我 们 可 以 将 它 谈 论 的 实 
体 抽 取出 来 ， 将 它们 集合 成 类 别 ， 然 后 学 习 类 别 之 间 如 何 相互 关联。 如 
果 儿 人 问 我 们 : “阿诺德 : 施 瓦 辛 格 是 动作 明星 吗 ? ?我 们 可 以 回答 :“ 征 
的 ， 因 为 他 是 明星 ， 而 且 他 在 动作 片 里 。? 渐 渐 地 ， 我 们 能 够 学 习 越 来 
越 大 规模 的 MLN， 直 到 去 做 我 的 一 位 谷歌 朋友 称 作 * 世 界 范 围 的 机 器 学 
习 ” 的 事 : 同时 模拟 世界 上 的 每 个 人 ， 数 据 会 不 断 流 入 ， 答 案 则 不 断 流 
出 5 


当然 ， 如 此 规模 的 学 习 需 要 的 不 仅 是 直接 执行 我 们 见 过 的 算法 。 例 
如 ， 除 这 一 点 之 外 ， 单 个 处 理 器 还 不 足够 ， 我 们 得 在 许多 服务 右上 分 配 
学 习 。 工 业 和 学 术 界 的 研究 人 员 已 经 深入 调查 ， 例 如 ， 如 何 并 行使 用 多 
台 计 算 机 来 进行 梯度 下 降 ， 其 中 一 个 选择 就 是 在 处 理 喜 之 间 划 分 数据 ， 
另外 一 个 就 是 划分 模型 的 参数 。 在 每 个 步骤 之 后 ， 我 们 将 结果 整合 起 
来 ， 然 后 重新 分 配 工 作 。 不 管 怎 样 ， 在 不 让 交流 成 本 压倒 你 ， 或 者 不 让 
结果 的 质量 受 困 扰 的 情况 下 完成 这 件 事 ， 做 到 这 一 点 绝 非 易 事 。 为 外 一 


个 问题 束 是 ， 如 果 你 有 无 数 数据 串 要 输入 ， 那 么 你 在 实现 人 菏 些 决定 之 

前 ， 不 能 等 看 看 数据 。 一 个 解决 办 法 就 是 利用 采样 原理 ;如果 你 想 预 测 
谁 会 局 得 下 一 届 总 统 选举 ， 隐 不 必 问 每 个 选民 会 投 给 谁 ， 几 千 个 人 的 样 
本 已 经 足够 〈 如 果 你 愿意 接受 一 点 不 确定 ) 。 诀 罕 就 是 把 这 个 推广 到 拥 
有 几 百 万 个 参数 的 复杂 模型 中 。 但 我 们 只 能 通过 这 样 的 方法 做 到 一 点 ， 
即 在 每 一 步 中 尽量 从 数据 流 中 举例 子 ， 因 为 我 们 要 十 分 肯定 自己 做 了 下 
确 的 决定 ， 并 且 所 有 决定 的 不 确定 性 保持 在 允许 范围 内 。 利 用 这 种 方 

法 ， 我 们 束 可 以 在 有 限 的 时 间 内 从 无 限 数 据 中 学 到 东西 ， 残 像 我 在 一 篇 
提议 这 种 方法 的 论文 中 提 及 的 那样 。 


大 数据 流 系统 是 竖 西 尔 ' 德 米尔 机 器 学 习 的 产品 ， 拥 有 数 千 个 服务 
项 ， 而 不 是 数 千 个 附加 设备 。 在 最 大 型 的 项 目 中 ， 只 要 把 所 有 效 据 汇 集 
起 来 、 验 证 数据 、 清 除数 据 、 将 数据 处 理 成 学 习 算 法 能 消化 的 形式 ， 这 
样 做 ， 建 造 金字 塔 就 简单 得 像 在 公园 散步 一 样 。 


欧洲 的 “未 来 信息 和 通信 技术 ”项目 和 在 建造 整个 世界 《真正 合 义 即 
是 字面 意思 ) 的 模型 。 社 人 会、 政府、 文化、 技术、 农业、 疾病 、 全 球 经 
谤 等 不 能 落下 一 样 。 这 当然 还 不 成 熟 ， 但 它 却 预示 着 未 来 要 发 生 的 事 。 
同时 ， 像 这 样 的 项 目 可 以 帮助 我 们 找到 可 扩展 性 的 极限 在 哪里 ， 以 及 如 
何 苑 服 这 些 极限 。 


计算 复杂 性 是 一 件 事 ， 人 类 复 杀 性 是 另外 一 件 事 。 如 果 计 算 机 就 像 
日 痴 专 家 ， 那 么 学 习 算 法 有 时 会 过 到 少年 天 才 乱 友 脾 气 的 情况 ， 这 也 是 
那些 能 征服 他 们 的 人 类 会 收获 诺 丰 的 原因 之 一 。 如 果 你 知道 以 专业 的 手 
法 调整 控制 旋钮 ， 直 到 到 达 恰 当 的 位 置 ， 那 么 魔法 就 会 随 之 而 来 ， 以 一 
连 串 超越 学 习 算 法 年 份 见解 的 形式 出 现 。 


而 且 ， 和 德尔 裴 神 论 并 无 两 样 的 是 ， 解 释 学 习 算法 的 宣言 本 号 需 要 
大 量 的 技能 。 虽 然 如 此 ， 如 果 转 错 手 柄 ， 学 习 算 法 可 能 会 涌 出 一 系列 明 
言 乱 语 ， 或 者 在 反抗 中 保持 沉默 。 不 科 的 是 ， 就 这 一 点 而 言 ， 炼 金 术 并 
不 比 多 数 算 法 好 。 把 你 知道 的 用 逻辑 的 形式 写 下 来 、 输 入 数据 、 按 下 按 


钮 才 是 好 玩 的 部 分 。 当 炼金 术 返 回 准 确 而 有 效 的 MLN 时 ， 你 会 去 酒吧 
庆祝 ; 当 它 不 返回 时 一 一 很 多 时 候 会 出 现 的 状况 一 一 战争 器 开始 了 。 问 
题 存 在 于 知识 、 学 习 、 推 理 中 吗 ? 一 方面 ， 因 为 学 习 和 概率 推理 ， 简 单 
的 MLN 可 以 做 复杂 程序 能 做 的 事 。 男 一 方面 ， 当 它 不 起 作用 时 ， 调 试 
起 来 就 困难 很 多 。 解 决 办 法 就 是 让 它 更 加 交互 ， 有 能 力 进 行 反省 ， 并 解 
释 它 的 推理 。 这 就 会 让 我 们 癌 终 极 算 法 更 加 靠近 一 步 。 


医生 马上 来 看 你 


治 鳃 癌症 的 方法 是 一 种 能 够 输入 癌症 基因 组 ， 并 输出 杀 死 净 细 胞 药 
物 的 程序 。 我 们 现在 可 以 想象 ， 这 样 的 程序 “就 叫 它 “CanceRx”) 会 长 
什么 样 。 尺 管 外 表 上 看 起 来 简单 ，CanceRx 是 编 出 的 程序 中 规模 最 大 也 
古 最 复杂 的 程序 ， 的 确 太 大 了 ， 所 以 它 只 能 在 机 器 学 习 的 辅助 下 建立 。 
它 的 基础 是 一 个 天 于 活 细 胞 如 何 运 转 的 详细 模型 ， 人 体内 的 每 种 细胞 都 
会 有 一 个 子 类 别 ， 还 有 关于 细胞 如 何 互动 、 支 配 一 切 的 模型 。 该 模型 以 
MLN 或 者 与 其 相似 的 形式 ， 将 分 子 生物 学 的 知识 与 来 自 DNA 测 序 仪 、 
微 阵列 ， 以 及 其 他 许多 来 源 的 大 量 数据 结合 起 来 。 有 些 数据 通过 手动 进 
行 编程 ， 但 大 部 分 是 从 生物 医学 文献 中 提取 出 来 的 。 模 型 会 不 断 进 化 ， 
并 将 新 实验 的 结果 、 数 据 来 源 、 患 者 病历 合并 起 来 。 最 后 ， 它 就 掌握 每 
种 类 型 人 体 细 胞 中 的 每 条 路 线 、 调 节 机 制 、 化 学 反应 ， 这 就 是 人 体 分 子 
生物 学 的 总 和 。 


CanceRx 会 将 其 大 部 分 时 间 用 于 搜索 包含 备 选 药物 的 模型 。 考 虑 到 
新 药 ， 该 模型 会 预测 药物 对 癌 细 胞 和 正常 细胞 的 效果 。 当 爱丽 丝 被 诊断 
为 癌症 时 ，CanceRx 会 利用 她 的 正常 细胞 和 肿瘤 来 将 它 的 模型 实例 化 ， 
并 尝试 所 有 可 能 的 药物 ， 直 到 它 找 到 一 种 能 杀 死 癌 细 胞 而 又 不 伤害 健康 
细胞 的 药物 。 如 果 它 找 不 到 有 效 药物 或 者 有 效 药物 组 合 ， 那 么 它 束 会 着 


手 研发 一 种 会 治愈 冶 症 的 药 ， 也 许 会 利用 扑 山 法 或 者 交叉 法 来 让 它 从 现 
有 的 药物 中 发 展 起 来 。 它 会 在 研究 中 的 每 一 步 中 ， 在 模型 上 党 试 备 选 药 
物 。 如 果 药 物 抑制 了 癌症 ， 但 仍然 有 一 些 有 害 的 副作用 ，CanceRx 会 学 
试 调整 它 以 摆脱 副作用 。 在 冶 症 变异 前 ， 模 型 就 能 预测 可 能 的 变异 ， 
CanceRx 就 会 开 出 那些 能 在 中 途 扼 杀 况 变异 细胞 的 药物 。 在 人 性 与 癌 证 
这 场 象 棋 游 戏 中 ，CanceRx 将 是 将 军 。 


请 注意 机 器 学 习 不 会 独自 把 CanceRx 给 我 们 。 这 不 像 我 们 有 一 个 巨 
大 的 分 子 生物 学 数据 库 整 装 竺 发， 将 这 个 数据 库 输入 终极 算法 ， 弹 出 来 
的 是 活 细 胞 的 完美 模型 。 在 多 次 交互 作用 下 ，CanceRx 可 能 是 无 数 生 物 
学 家 、 肿 瘤 医 生 、 数 据 科 学 家 进行 世界 范围 内 合作 的 最 终结 果 。 然 而 ， 
最 重要 的 是 ，CanceRx 会 在 医生 和 医院 的 协助 下 ， 从 几 百 万 个 癌症 病人 
中 整合 数据 。 没 有 数据 ， 我 们 就 无 法 治愈 癌症 ;有 了 它 ， 就 能 治愈 癌 
症 。 为 整个 不 断 壮 大 的 数据 库 做 贡献 ， 这 不 仅 是 每 个 病人 的 利益 ， 还 是 
它 的 伦理 黄 任 。 在 CanceRx 的 世界 中 ， 离 散 的 临床 实验 是 过 去 的 事情 。 
CanceRx 提 出 的 新 治疗 方法 也 正在 继续 被 推出 ， 如 果 这 些 治疗 方法 起 作 
用 ， 则 会 用 到 更 广 范 围 的 病人 身上 。 在 经 过 改善 的 良性 循环 中 ， 成 功 和 
失败 的 经 历 都 会 为 CanceRx 的 学 习 提 供 宝 贵 的 数据 。 如 果 你 以 某 种 方式 
看 待 它 ， 机 器 学 习 可 能 只 是 CanceRx 工 程 的 一 小 部 分 ， 仅 次 于 数据 收集 
和 人 类 贡献 。 但 如 果 以 别 的 方式 看 待 它 ， 机 器 学 习 就 是 整个 企业 的 关 
键 。 没 有 它 ， 我 们 只 能 掌握 癌症 生物 学 的 零碎 知识 ， 散 落 在 数 千 个 数据 
库 和 数 百 万 篇 科学 文章 中 ， 每 个 医生 只 会 注意 一 小 部 分 。 将 所 有 这 些 知 
识 集中 成 一 个 连贯 整体 ， 这 超出 了 不 受 协 助 的 人 类 的 能 力 ， 无 论 人 类 多 
么 聪明 ， 只 有 机 器 学 习 才 能 做 到 这 件 事 。 因 为 每 种 癌症 都 不 一 样 ， 它 让 
机 器 学 习 找到 通用 模式 。 而 且 因为 单个 组 织 会 产生 几 十 亿 个 数据 点 ， 这 
就 需要 机 器 学 习 来 弄 明 白 能 为 每 个 新 病人 做 点 什么 。 


现在 人 们 已 经 在 努力 建造 最 终 会 成 为 CanceRx 的 东西 。 在 系统 生物 
学 的 新 领域 中 的 研究 员 会 模拟 整个 代谢 网 络 ， 而 非 个 体 基因 和 乍 白质。 
位 于 斯 坦 福 的 一 个 团队 已 经 构建 了 整个 细胞 的 模型 。 全 球 基因 组 学 与 健 


康 联盟 推动 数据 在 研究 员 和 肿瘤 学 家 之 间 的 分 享 ， 痢 眼 于 大 规模 分 析 。 

癌症 联盟 会 〈Cancer Commons.org) 收集 癌症 模型 ， 让 病人 集中 他 们 的 
病历 ， 然 后 从 相似 例子 中 学 习 。 基 础 医学 (Foundation Medicine) 碍 明 
病人 肿瘤 细胞 中 的 变异 ， 然 后 开 出 最 合适 的 药物 。10 年 前 ， 人 们 不 知道 
癌症 是 否 可 以 或 者 如 何 被 治愈 ， 现 在 我 们 就 能 看 到 如 何 做 到 这 一 点 。 路 
还 很 长 ， 但 我 们 已 经 找到 路 了 。 


第 十 章 
建立 在 机 融 学 习 之 上 的 地界 


既然 你 已 经 游览 了 机 器 学 习 仙 境 ， 现 在 让 我 们 调整 档 位 ， 看 看 这 一 
切 对 你 来 说 意味 着 什么 。 就 像 《 黑 客 希 国 》 中 的 红色 药丸 一 样 ， 终 极 算 
法 是 通 往 不 同 现实 状况 的 大 门 : 你 已 经 生存 在 这 个 现实 当中 ， 但 对 它 还 
不 了 解 。 从 约会 到 上 班 、 从 自我 认 知 到 社会 的 未 来 、 从 数据 分 至 到 战 
和 争 、 从 人 工 智 能 的 危险 到 进化 的 下 一 步 ， 新 的 世界 正在 形成 ， 而 机 器 学 
习 是 解锁 这 个 世界 的 钥 古 。 本 章 将 会 有 助 于 你 在 生活 中 充分 利用 机 器 学 
习 ， 然 后 为 即将 到 来 的 东西 做 好 准备 。 机 器 学 习 不 会 单独 决定 未 来 ， 这 
和 其 他 技术 一 样 ， 真 正 重要 的 是 我 们 用 它 决定 要 做 的 事 ， 现 在 你 有 了 用 
于 决定 的 工具 。 


在 这 些 工 具 当 中 最 主要 的 是 终极 算法 。 无 论 它 什 么 时 候 会 出 现 ， 无 
论 它 看 起 来 是 否 像 炼金 术 ， 这 些 部 没有 它 涵盖 的 东西 重要 : 一 种 学 习 算 
法 不 可 或 缺 的 能 力 ， 以 及 这 些 能 力 能 让 我 们 实现 什么 目的 。 我 们 也 可 以 
把 终极 算法 当成 现在 和 未 来 学 习 算法 的 合成 图 。 我 们 可 以 很 方便 地 将 该 
合成 图 用 在 思维 实验 中 ， 代 蔡 产 品 X 或 者 网 页 Y 中 的 特殊 算法 ， 这 些 产 
品 或 者 网 页 所 属 的 公司 不 太 可 能 会 分 享 它们 的 产品 。 由 此 看 来 ， 每 天 与 
我 们 互动 的 学 习 算 法 是 终极 算法 的 萌芽 版 ， 我 们 的 任务 就 是 了 解 它们 ， 
推动 其 成 长 以 更 好 地 满足 我 们 的 需要 。 


在 未 来 10 年 ， 机 器 学 习 会 大 范围 影响 人 类 的 生活 ， 只 用 一 本 书 的 一 
个 章节 无 法 描述 清楚 。 即 便 如 此 ， 我 们 已 经 看 到 许多 重复 出 现 的 主题 ， 
这 些 主题 就 是 我 们 的 关注 点 ， 并 以 心理 学 家 所 谓 的 “心理 理论 ”作为 开 
始 ， 更 确切 地 说 ， 是 以 你 的 心理 的 计算 机 理论 作为 开始 。 


性 、 放 言 和 机 如 学 习 


你 的 数字 化 未 来 从 一 个 感悟 开始 : 每 次 你 和 计算 机 相互 作用 时 一 一 
无 论 是 你 的 智能 手机 ， 还 是 几 千 英里 以 外 的 服务 融 一 一 你 都 会 从 两 个 层 
面 上 这 样 做 。 第 一 个 层面 是 ， 妆 场 束 得 到 你 想 要 的 东西 ， 如 问题 的 答 
案 、 你 想 买 的 产品 、 一 张 新 的 信用 卡 。 第 二 个 层面 ， 从 长 远 来 看 也 是 最 
重要 的 一 个 ， 就 是 教会 计算 机 关于 你 的 东西 。 你 教会 它 越 多 的 东西 ， 它 
就 越 能 更 好 地 为 你 服务 〈 或 者 操纵 你 ) 。 生 活 就 是 你 和 包围 你 的 学 习 算 
法 之 间 的 游戏 。 你 要 么 拒绝 参与 游戏 ， 那 么 你 就 得 在 21 世 纪 过 20 世 纪 的 
生活 ; 要 么 从 游戏 中 获胜 。 你 想 让 你 的 计算 机 拥有 你 的 哪个 模型 ? 为 了 
产生 那个 模型 ， 你 能 给 它 什么 数据 ? 当 你 和 一 种 学 习 算 法 互动 时 ， 脑 子 
里 束 应 该 一 下 思考 这 两 个 问题 ， 残 像 你 和 其 他 人 互动 时 一 样 。 爱 丽 丝 知 
道 鲍 劲 对 她 有 一 个 心理 模型 ， 并 试图 通过 她 的 行为 来 塑造 这 个 模型 。 如 
果 鲍 动 是 她 的 上 司 ， 她 努力 给 他 能 干 、 上 忠诚、 努力 工作 的 形象 ， 如 果 鲍 
动 是 她 想 诱 惑 的 对 象 ， 她 就 以 最 性 感 的 一 面 出 现 。 对 于 别人 在 想 什 么 这 
一 点 ， 如 果 无 法 和 任 直 觉 知 道 并 做 出 反应 ， 那 么 我 们 就 很 难 在 社会 上 活 
动 。 当 今世 界 新 奇 的 地 方 在 于 计算 机 《不 仅仅 是 人 类 ) 也 开始 有 心理 理 
论 了 。 它 们 的 理论 仍然 有 点 粗糙 ， 但 发 展 得 很 快 ， 而 为 了 拿 到 我 们 想 要 
的 东西 ， 不 得 不 与 它们 进行 合作 一 一 不 少 于 和 其 他 人 的 合作 。 因 此 你 需 
要 计算 机 心理 的 理论 ， 将 评分 函数 (你 认为 学 习 算法 的 目标 是 什么 ， 或 
者 更 准确 地 说 ， 它 的 主人 的 目标 是 什么 》 和 数据 (你 认为 它 知 道 的 东 
西 ) 带 入 之 后 ， 这 就 是 终极 算法 要 提供 的 东西 。 


以 网 上 约会 为 例 。 当 你 利用 Match.com、eHarmony 或 者 

OkCupid (都 为 美国 知名 的 约会 和 社交 网 络 平台 )〉 (有 必要 的 话 ， 和 暂停 
你 的 怀疑 ) 时 ， 你 的 目标 很 简单 一 一 找到 最 佳 的 可 能 约会 对 象 。 但 很 有 
可 能 ， 在 你 遇 到 真正 喜欢 的 人 之 前 会 费 很 大 劲 ， 可 能 还 会 有 几 次 令 人 失 
望 的 约会 。 一 个 需 强 的 采 子 会 从 OkCupid 上 摘出 两 万 条 简介 ， 做 他 自己 
的 数据 挖掘 工作 ， 然 后 在 第 88 次 约会 中 找到 他 的 梦 中 女 即 ， 然 后 将 他 这 
段 漫 长 的 旅程 告诉 《 连 线 》 杂 志 。 为 了 减少 约会 次 数 、 少 费 工 夫 ， 你 的 
两 大 工具 就 是 你 的 简介 和 你 对 推荐 对 象 的 反应 。 有 一 个 受 人 欢迎 的 选择 
就 是 说 说 《比如 关于 你 的 年 龄 ) 。 这 可 能 看 起 来 不 道德 ， 更 不 用 说 当 你 
的 对 象 知道 事实 后 ， 事 情 会 搞 砸 ， 但 这 里 有 一 个 转折 。 对 网 上 约会 在 行 
的 人 已 经 知道 ， 人 们 会 在 简介 中 的 年 龄 问题 上 撤 诉 ， 然 后 根据 情况 进行 
调整 ， 所 以 如 果 你 说 出 自己 的 真实 年 龄 ， 实 际 上 就 告诉 他 们 你 比 实际 年 
龄 要 大 。 反 过 来 ， 进 行 配对 的 学 习 算 法 认为 ， 和 真正 选择 的 约会 对 象 相 
比 ， 人 们 宁 藉 选择 更 年 轻 的 人 人。 逻辑 上 的 下 一 步 ， 就 是 更 大 程度 地 谎报 
他 们 的 年 龄 ， 最 终 解释 这 个 属性 将 没有 意义 。 


对 于 所 有 关心 的 问题 ， 更 好 的 办 法 在 于 集中 于 特殊 、 非 比 寻 常 、 预 
测 能 够 成 功 配 对 的 属性 上 。 在 这 种 意义 上 ， 它 们 会 挑 出 那些 你 喜欢 但 不 
是 所 有 人 都 喜欢 的 人 ， 因 此 竞争 也 就 没有 那么 大 了 。 你 的 工作 《〈 也 包括 
你 未 来 约会 对 象 的 工作 ) 就 是 提供 这 些 属性 ;， 媒人 的 工作 就 是 掌握 这 些 
属性 ， 和 旧时 媒人 的 做 法 一 样 。 和 旧时 媒人 相 比 ，Match.com 的 算法 有 
一 个 优势 ， 它 知道 更 多 的 人 ， 但 劣势 在 于 它 对 这 些 人 的 了 解 没 那么 深 。 
朴 际 学 习 算 法 ， 例 如 一 台 感 知 器 ， 会 满足 于 普 届 化 的 观点 ， 如 “绅士 都 
喜欢 金发 桥 眼 的 女人 ”。 更 加 复杂 的 学 习 算 法 会 发 现 诸如 “对 音乐 有 另类 
品位 的 人 往往 适合 在 一 起 ”的 模式 。 如 果 爱 丽 丝 和 鲍 勃 都 喜欢 锋 昂 斯 ， 
单 赁 这 一 点 他 俩 很 难 配对 在 一 起 ; 但 如 果 他 们 都 喜欢 艾 伦 主教 ， 这 点 至 
少 让 他 们 成 为 灵魂 伴侣 的 可 能 性 变 得 更 大 。 如 果 他 们 都 是 一 个 乐队 的 粉 
丝 ， 但 学 习 算 法 不 知道 这 个 乐队 ， 那 就 更 好 了 ， 但 只 有 一 种 关系 算法 ， 
如 炼金 术 ， 才 能 不 费力 地 擎 握 这 一 点 。 学 习 算 法 越 好 ， 就 越 值 得 你 花 时 
间 让 它 了 解 你 。 但 根据 经 验 ， 你 想 让 自己 足够 与 众 不 同 ， 这 样 它 就 不 会 


将 你 和 “普通 人 ”混淆 ( 记 住 第 八 间 的 鲍 动 : 伯 恩 斯 ， 但 也 别 太 与 众 不 
同 ， 这 样 它 就 没 办 法 理解 你 了 。 


网 上 约会 实际 上 是 一 个 有 点 难以 理解 的 例子 ， 因 为 化 学 反应 难以 预 
测 。 两 个 在 约会 中 合 得 来 的 人 ， 可 能 最 后 会 相爱 ， 并 坚信 他 们 就 是 天 生 
一 对 。 但 如 果 他 们 最 初 话 不 投机 ， 可 能 会 觉得 对 方 烦人 ， 不 想 再 见面 
了 。 真 正 复 杂 的 学 习 算 法 所 做 的 ， 束 是 在 每 对 似乎 合理 的 一 对 情 倡 之 间 
进行 1000 次 绽 特 卡 洛 模拟 ， 然 后 通过 那 部 分 结果 还 不 错 的 约会 对 这 些 情 
侣 进行 排名 。 简 而 言 之 ， 约 会 网 站 可 以 组 织 派 对 ， 并 邀请 那些 对 很 多 人 
来 说 可 能 会 成 为 其 伴侣 的 人 ， 让 他 们 在 几 个 小 时 之 内 就 完成 需要 几 周 完 
成 的 事情 。 


对 于 我 们 那些 热衷 于 网 上 约会 的 人 来 次 ， 更 即时 有 用 的 办 法 就 是 选 
择 记 录 哪 些 互动 ， 以 及 在 哪里 记录 。 如 果 你 不 想 让 亚马逊 对 你 的 圣诞 节 
购物 品位 产生 疑惑 ， 请 在 其 他 网 站 上 进行 〈 对 不 起 了 ， 亚 马 逊 ) 。 如 果 
你 在 家 看 不 同 种 类 的 视频 ， 为 了 工作 ， 在 YouTube 上 保留 两 个 账号 ， 在 
家 一 个 ， 工 作 时 一 个 ，YouTube 会 学 着 做 出 相应 的 推荐 。 如 末 你 打算 看 
一 些 一 般 不 会 感 兴趣 的 视频 ， 就 多 退出 账号 。 使 用 谷歌 浏览 右 的 无 痕 模 
式 ， 目 的 不 是 为 了 非法 浏览 (当然 ， 你 绝 不 会 这 么 做 ) ， 而 是 因为 你 不 
想 让 当前 搜索 影响 到 未 来 的 个 性 化 定制 。 在 网 飞 上 ， 利 用 你 的 账号 来 为 
不 同 的 人 添加 简介 ， 这 样 可 以 使 你 在 和 家庭 电影 之 夜 免 于 R 级 片 〈 即 限制 
性 影片 ) 推荐 。 如 果 你 不 喜欢 荣 家 公司 ， 可 以 点 击 它 的 广告 ， 这 样 不 仅 
能 够 即时 花费 它 的 钱 ， 通 过 为 那些 不 太 可 能 购买 产品 的 人 展示 广告 ， 还 
可 以 教会 谷歌 来 再 次 浪费 它 的 钱 。 如 果 你 有 非常 特 殊 的 搜索 项 ， 想 让 谷 
歌 未 来 能 够 准确 回答 ， 那 么 花 点 时 间 来 查阅 后 来 显示 结果 的 页 面 ， 看 看 
有 没有 相关 链接 ， 然 后 点 击 链 接 。 较 为 普 吉 的 是 ， 如 果 一 个 系统 不 断 问 
你 推荐 错误 的 东西 ， 通 过 找到 并 扣 击 多 个 准确 链接 的 方式 来 试图 调教 系 
统 ， 然 后 返回 来 看 看 它 是 否 起 作用 了 。 


里 然 如 此 ， 但 这 可 能 是 或 重 的 工作 。 不 和 洱 的 是 ， 所 有 这 些 所 曾 明 


的 ， 就 是 当今 你 和 学 习 算 法 之 间 的 通信 通道 是 多 么 狭 罕 。 你 应 该 有 能 力 
告诉 它 关 于 你 自己 的 信息 ， 以 及 你 想 要 的 东西 有 哪些 ， 而 不 仅仅 是 让 它 
间接 从 你 的 行为 中 学 习 。 不 仅 如 此 ， 你 应 该 有 能 力 检查 你 的 学 习 算法 模 
型 ， 然 后 按照 期 望 对 它 进行 修正 。 如 果 学 习 算 法 认为 你 在 撒谎 或 者 缺乏 
目 我 认 知 ， 那 么 它 仍 会 决定 忽视 你 ， 但 至 少 这 一 次 可 以 考虑 你 的 输入 信 
息 。 因 为 这 一 点 ， 模 型 需 以 人 类 能 理解 的 方式 呈现 ， 例 如 ， 需 要 规则 集 
而 不 是 神经 网 络 ， 而 且 除 了 原始 数据 ， 它 需要 接受 将 一 般 陈 述 当 作 输 

入 ， 正 如 炼金 术 一 样 。 所 有 这 些 让 我 们 想 知 道学 习 算 法 能 有 多 好 的 一 个 
关于 你 的 模型 ， 以 及 你 会 利用 这 个 模型 干什么 。 


数码 镜子 


伦 点 时 间 来 考虑 你 记录 在 世界 上 所 有 计算 机 里 的 数据 : 你 的 邮箱 、 
办 公文 档 、 文 本 ， 推 特 、 脸 书 和 领 英 账号 ; 你 的 网 页 搜索 、 点 击 、 下 
载 、 购 买 ， 你 的 信用 卡 、 传 真 、 电 话 、 健 康 档案 ; 你 的 健康 退 躁 器 统 
计 ; 你 的 汽车 微 处 理 右 记录 下 的 驾驶 情况 ;你 用 得 时 被 手机 记录 下 来 的 
言 轧 ;你 担 过 的 所 有 照片 ; 监控 摄像 机 里 的 简短 片段 ， 你 的 谷歌 眼镜 片 
段 。 如 果 未 来 的 传记 作者 没有 什么 可 利用 ， 除 了 你 的 “数据 排放 ”， 他 会 
描写 出 怎样 的 一 个 你 ?也 许 是 一 个 在 许多 方面 都 很 准确 、 很 详细 的 你 ， 
但 也 有 可 能 缺失 系 些 东西 的 你 。 为 什么 你 会 在 一 个 风 和 日 丽 的 日 子 决定 
改变 职业 生涯 ? 自传 作者 提前 预测 到 这 一 点 了 吗 ? 那么 你 人 条 天 遇见 并 偷 
偷 难 以 筷 怀 的 那个 人 呢 ? 那 位 作者 能 够 通过 发 现 的 片段 返回 来 ， 然 后 
说 “ 啊 ， 原 来 在 那儿 ” 吗 ? 


有 一 个 令 人 冷静 (也 许 是 安心 ) 的 想法 ， 就 是 当 今世 界 上 没有 哪 种 
学 习 算法 可 以 利用 所 有 这 些 数据 (甚至 美国 国家 安全 局 也 不 可 以 ) 。 即 
使 有 ， 该 算法 也 不 知道 如 何 将 数据 变 成 逼真 的 你 。 假 设 你 带 着 目 己 的 所 


有 数据 ， 然 后 把 数据 交 给 真实 的 未 来 终极 算法 会 怎样 呢 ? 该 算法 已 经 包 
含 所 有 我 们 教 过 它 的 所 有 东西 。 它 会 学 习 关 于 你 的 一 个 模型 ， 而 你 可 以 
用 指 尖 驱动 那个 模型 ， 并 把 它 放 在 口袋 里 携 市 ， 随 意 对 它 进行 检查 ， 然 
后 将 它 用 于 你 喜欢 的 东西 。 当 然 ， 这 对 内 省 法 来 说 ， 是 一 个 很 好 的 工 
有 具 ， 就 像 在 镜子 里 看 自己 一 样 。 它 也 会 是 一 面 数 码 镜子 ， 不 仅 能 够 显示 
你 的 外 表 ， 还 能 显示 所 有 关于 你 的 、 能 观察 到 的 东西 一 一 一 面 棚 棚 如 
生 ， 并 能 和 你 对 话 的 镜子 。 你 会 问 它 什么 问题 ? 你 可 能 不 会 喜欢 它 的 某 
些 回 答 ， 但 这 就 更 有 理由 来 好 好 考虑 这 些 答案 ; 有些 答案 可 能 会 给 你 新 
的 想法 和 方 回 。 你 的 终极 算法 模型 其 至 可 以 帮 你 成 为 更 好 的 人 。 


除了 自我 提升 ， 也 许 第 一 件 你 想 让 自己 的 模型 完成 的 事 就 是 代表 你 
与 世界 妥协 ， 使 它 在 网 络 空间 放松 下 来 ， 同 时 为 你 寻找 各 种 各 样 的 事 
物 。 从 世界 上 所 有 的 书 中 ， 它 会 给 你 推荐 十 几 本 你 接 下 来 可 能 想 阅 读 的 
书 ， 见 解 比 亚 马 逊 能 想到 的 还 要 好 。 对 于 电影 、 音 乐 、 游 戏 、 衣 服 、 电 
子 产 品 来 说 ， 道 理 也 一 样 一 一 应 有 尺 有 。 筷 可 以 让 你 的 冰箱 一 直 处 于 装 
满 的 状态 ， 这 是 坚 无 疑问 的 。 它 可 以 对 你 的 文本 邮件 、 语 音 邮 件 、 腔 书 
帖子 、 推 特 信息 进 行 过 小 ， 而 且 在 合适 的 时 候 会 代表 你 回复 这 些 消 乱 。 
它 还 会 为 你 处 理 生活 中 的 所 有 小 烦恼 ， 比 如 但 看 信用 卡 账单 、 拒 绝 乱 收 
费 、 做 计划 、 更 新 订阅 、 填 写 纳税 申报 单 。 它 会 为 你 的 疾病 找到 治疗 方 
法 ， 由 你 的 医生 来 管理 该 方法 ， 并 从 沃 尔 格林 公司 预订 。 它 会 让 你 注意 
到 有 意思 的 工作 机 会 、 提 议 度假 胜地 、 建 议 你 该 为 哪个 候选 人 投票 、 寻 
找 潜在 的 约会 对 象 。 男 外 ， 你 和 约会 对 象 成 功 配对 以 后 ， 它 会 与 你 约会 
对 象 的 模型 合作 ， 为 你 们 两 人 挑选 彼此 都 喜欢 的 餐厅 。 这 时 事情 才 真 正 
开始 变 得 有 意思 起 来 。 


充满 模型 的 社会 


在 这 个 快速 接近 的 未 来 社会 中 ， 你 不 是 唯一 拥有 “数码 男 一 半 ” 的 人 
( 男 一 半 会 24 小 时 按照 你 的 要 求 办 事 ) ， 每 个 人 都 会 有 自己 的 详细 模 
型 ， 这 些 模型 会 一 直 互 相对 话 。 如 果 你 正在 找 工 作 ， 而 X 公 司 正 在 招 
聘 ， 它 的 模型 会 对 你 的 模型 进行 面试 。 这 很 像 一 场 真 实 、 壬 临 其 境 的 面 
斌 一 一 你 的 模型 最 好 还 是 别 主动 提供 你 的 负面 信息 等 一 一 但 这 个 过 程 只 
会 花 不 到 1 秒 的 时 间 。 你 在 未 来 领 正 账 号 上 扣 击 “ 找 工作 *”， 会 马上 进行 
宇宙 中 所 有 公司 的 工作 面试 ， 昌 然 远 ， 但 与 你 的 参数 专业、 地 点 、 葛 
资 等 ) 匹配 。 领 天 会 马上 反馈 最 佳 公司 列表 ， 你 可 以 从 中 挑选 想 进行 细 
谈 的 公司 。 约 会 也 是 一 样 ， 你 的 模型 会 进行 数 百 万 次 约会 ， 所 以 你 就 不 
必 了 。 星 期 入， 你 会 在 OkCupid 组 织 的 派对 上 认识 最 佳 约会 人 选 ， 你 知 
道 目 己 也 是 对 方 的 最 佳 约会 人 选 一 一 当然 ， 你 也 知道 对 方 其 他 的 约会 人 
选 也 在 屋 里 。 这 肯定 是 一 个 有 意思 的 夜晚 。 


在 终极 算法 的 世界 里 ,，“ 我 的 人 会 联系 你 的 人 ”会 变 成 “我 的 程序 会 
联系 你 的 程序 ”。 每 个 人 都 会 有 一 个 机 器 人 人 随从， 在 这 个 世界 游 力 有 余 
地 存在 。 交 易 完成 了 、 条 亚 谈 有 了 、 安 排 做 好 了 ， 这 些 都 会 在 你 举 起 手 
指头 之 前 完成 。 今 天 ， 医 药 公 司 会 锁定 你 的 一 生 ， 因 为 它 决 定 给 你 开 什 
么 药 ; 明天 ， 你 消费 的 每 种 产品 或 者 服务 的 经 销 商会 定位 你 的 模型 ， 因 
为 模型 会 为 你 蜂 选 。 它 们 的 机 右 人 的 任务 束 是 让 你 的 机 器 人 来 购买 。 你 
的 机 器 人 的 工作 束 是 看 穿 它们 的 口号 ， 就 像 你 看 穿 电 视 广 告 一 样 ， 但 会 
比 你 看 得 更 细致 ， 你 绝 不 会 有 时 间 和 耐心 来 完成 。 买 车 之 前 ， 你 的 数码 
为 一 半 会 浏览 所 有 的 参数 并 和 制造 商讨 论 这 些 参数 ， 然 后 研究 世界 上 每 
个 人 对 那 辆 车 及 其 答 代 品 的 评价 。 你 的 数码 另 一 半 就 像 指 引 你 生活 的 力 
量 一 样 ， 它 会 去 你 想 去 的 地 方 ， 但 让 你 花费 的 时 间 比 较 少 。 这 并 不 意味 
者 你 最 终 会 陷入 “过 滤 泡 泡 ” 的 困境 中 ， 看 到 的 只 是 你 觉得 可 靠 并 喜欢 的 
东西 ， 意 料 之 外 的 选择 则 排除 在 外 ， 你 的 数码 另 一 半 能 更 好 地 了 解 这 一 
点 ， 其 特点 包括 对 机 遇 留 有 余地 、 让 你 尽 享 新 体验 、 寻 找 发 现 珍 宝 的 运 
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即使 会 更 有 意思 ， 但 当 你 找到 汽车 、 房 子 、 医 生 或 者 工作 之 后 ， 这 


个 过 程 并 不 会 结束 。 你 的 数码 另 一 半 会 继续 从 经 历 中 学 习 东 西 ， 就 像 你 
一 样 。 它 弄 清 楚 什 么 能 起 作用 、 什 么 不 能 ， 不 论 是 在 工作 面试 、 约 会 ， 

还 是 在 寻找 房产 的 过 程 中 。 它 代表 你 和 人 们 、 组 织 进行 互动 ， 并 学 习 关 
于 它们 的 东西 ， 然 后 从 你 与 他 们 的 真实 互动 中 掌握 技能 (这 一 点 更 重 

要 ) 。 它 预测 爱丽 丝 会 是 你 很 棒 的 约会 对 象 ， 但 你 时 间 不 太 方便 ， 因 此 
它 会 假设 可 能 的 原因 ， 并 在 你 的 下 一 轮 约会 中 进行 验证 。 它 会 把 最 重要 
的 发 现 与 你 分 享 (“ 你 觉得 目 己 喜欢 X， 但 实际 上 你 更 倾 回 于 Y”) ， 将 

你 各 种 各 样 的 住 酒店 经 历 和 这 些 酒 店 在 “ 猫 途 座 ”(TripAdvisor) 上 的 评 
价 相 比 较 ， 它 会 弄 清楚 哪些 小 道 消 晨 是 真 的 并 在 以 后 将 其 找 出 。 它 不 仅 
掌握 网 上 哪个 商家 值得 信赖 ， 还 要 学 会 如 何 解 码 那 些 不 那么 值得 信赖 的 
商家 所 说 的 话 。 你 的 数码 男 一 半 有 一 个 世界 模型 一 一 不 只 是 一 般 的 世 

界 ， 还 指 与 你 产生 关联 的 世界 。 当 然 ， 其 他 所 有 人 也 会 有 自己 不 断 演进 
的 世界 模型 。 一 段 相互 关系 中 的 每 一 方 都 会 问世 界 模型 学 习 ， 并 将 其 学 
到 的 东西 运用 到 下 一 段 相互 关系 中 。 你 有 每 个 和 你 有 过 相互 关系 的 人 以 
及 组 织 的 模型 ， 而 他 们 也 会 有 你 的 模型 。 随 大 模 型 的 改善 ， 它 们 之 间 的 
相互 关系 束 会 变 得 越 来 越 像 你 在 真实 世界 中 的 相互 关系 一 样 一 一 除了 局 
出 几 百 万 僧 的 速度 以 及 存在 于 硅 片 中 之 外 。 未 来 的 网 络 空间 会 是 一 个 巨 
大 的 平行 世界 ， 只 会 选择 最 有 项 望 的 东西 在 真实 世界 中 进行 试验 ， 它 束 
像 一 种 新 的 全 球 性 意识 和 人 类 身份 。 


分 孚 与 否 ? 方式 、 地 点 如 何 ? 


当然 ， 你 独 目 一 人 了 解 这 个 世界 会 比较 缓慢 ， 即 使 你 的 数码 另 一 半 
了 解 世 界 的 速度 会 比 实 实在 在 的 你 高 出 数量 级 的 倍数 。 如 果 其 他 人 了 解 
你 的 速度 比 你 了 解 他 们 的 速度 要 快 ， 那 么 你 就 会 陷入 麻烦 。 解 决 办 法 束 
古 要 分 享 。100 万 个 人 了 解 一 家 公司 或 者 一 种 产品 的 速度 会 比 单个 人 的 
速度 快 很 多 ， 只 要 他 们 能 够 集中 各 目的 经 历 。 但 你 应 该 和 谁 分 至 数据 ? 


这 也 许 是 21 世 纪 最 重要 的 问题 了 。 


当今 你 的 数据 可 以 分 成 四 种 : 你 和 所 有 人 分 享 的 数据 ， 你 和 朋友 或 
者 同事 分 享 的 数据 ， 你 和 各 种 公司 〈 不 论 是 否 有 意 ) 分 享 的 数据 ， 以 及 
你 不 与 别人 分 享 的 数据 。 第 一 种 数据 包括 Yelp (美国 最 大 的 点 评 网 
站 ) 、 亚 马 进 、 猫 途 麻 上 的 评论 、 易 趣 网 的 反馈 评分 、 领 更 的 简历 、 博 
客 、 推 文 等 。 这 类 数据 价值 巨大 ， 是 四 类 数据 中 问题 最 少 的 一 类 。 你 真 
的 想 让 每 个 人 都 能 用 到 这 些 数 据 ， 每 个 人 也 会 从 中 受益 。 唯 一 的 问题 在 
于 ， 和 掌握 这 些 数据 的 公司 不 一 定 会 允许 对 它们 进行 大 量 下 载 ， 以 便 用 于 
构建 模型 。 它 们 应 该 允许 下 载 行为 。 时 下 你 可 以 去 猎 途 座 ， 查 看 你 正在 
考虑 入 住 的 指定 酒店 的 评论 和 星 级 评分 ， 但 如 果 要 查看 酒店 总 体 上 是 好 
还 是 坏 的 模型 呢 ， 而 通过 该 模型 ， 你 可 以 对 当前 有 极 少 可 靠 评 论 的 酒店 
进行 评分 ? 猫 途 认可 以 掌握 该 模型 ， 但 如 果 你 想 要 一 个 决定 你 对 酒店 感 
觉 好 坏 的 模型 呢 ?” 这 就 需要 关于 你 的 ， 但 你 不 想 和 猫 途 鹰 分 至 的 数据 。 
你 想 要 的 ， 束 是 一 个 可 信赖 的 、 能 将 两 类 数据 结合 起 来 ， 并 能 给 你 结 
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第 一 类 数据 应 该 不 会 存在 问题 ， 但 实际 上 并 非 如 此 ， 因 为 它 与 第 三 
类 数据 重合 了 。 你 在 脸 书 上 与 朋友 分 享 更 新 、 照 片 ， 你 的 朋友 也 和 你 分 
理 ， 但 每 个 人 都 会 利用 腔 书 来 分 享 他 们 的 更 新 和 照片 。 竺 和 运 的 脸 书 ， 它 
有 10 亿 个 朋友 。 渐 渐 地 ， 它 对 于 世界 的 了 解 比 任 何人 都 要 多 。 如 果 它 有 
更 好 的 算法 ， 就 能 了 解 得 更 多 ， 而 这 些 算 法 每 天 都 会 进步 ， 这 对 我 们 数 
据 科 学 家 来 说 是 一 种 恩惠 。 作 为 回报 ， 生 会 为 你 的 分 享 提供 基础 结构 ， 
这 就 是 你 使 用 脸 书 所 做 的 交易 。 随 着 学 习 算 法 的 改善 ， 它 由 数据 产生 的 
价值 会 越 来 越 大 ， 有 些 价值 会 以 更 相关 的 广告 、 更 优质 的 服务 的 形式 回 
馈 你 。 唯 一 的 问题 在 于 ， 脸 书 也 可 以 随意 使 用 你 不 感 兴趣 的 数据 和 模 
型 ， 你 却 无 法 阻止 它 。 


这 个 问题 会 伴随 你 与 公司 分 享 的 数据 一 起 突然 彻底 出 现 ， 包 括 如 今 
你 在 线 上 、 线 下 做 的 许多 事情 。 也 许 你 没 注意 到 ， 其 中 会 有 一 个 收集 你 


的 数据 的 疯狂 比赛 。 每 个 人 都 喜欢 你 的 数据 ， 这 也 难怪 ， 它 们 是 通 往 你 
的 世界 、 你 的 钱包 、 你 的 投票 甚至 你 的 心灵 的 大 门 。 但 是 每 个 人 只 能 拥 
有 它 的 一 小 部 分 : 谷歌 掌握 你 搜索 的 内 容 ， 亚 号 还 知道 你 网 购 的 东西 ， 
美国 电话 电报 公司 会 看 到 你 的 通话 记录 ， 苹 果 知 道 你 下 载 的 音乐 ， 西 夫 
韦 懂 得 你 购买 的 杂货 ， 美 国 第 一 资本 投资 国际 集团 了 解 你 的 信用 卡 交 易 
记录 。 诸 如 安 客 诚 (Acxiom) 之 类 的 公司 会 整理 并 销售 关于 你 的 数 
据 ， 但 如 果 你 可 以 对 其 进行 检查 (对 于 安 客 诚 的 情况 ， 你 可 以 在 
aboutthedata.com 检 查 ) ， 数 据 并 不 多 ， 而 且 有 些 还 是 错误 的 。 没 有 人 能 
够 了 解 到 完 完 整整 的 你 。 这 有 好 处 ， 也 有 坏处 。 有 好 处 是 因为 如 果 某 人 
做 到 了 ， 他 就 会 掌握 很 大 的 权力 ; 有 坏处 是 因为 只 要 事实 是 那样 的 ， 束 
不 会 有 你 的 360° 模 型 了 。 你 真正 想 要 的 是 数码 的 你 ， 以 及 你 是 唯一 拥有 
者 ， 其 他 人 只 有 根据 你 的 意愿 才能 获得 东西 ， 最 后 一 类 数据 (你 不 想 分 
享 的 数据 ) 也 存在 一 个 问题 ， 即 也 许 你 应 该 分 享 它 。 也 许 你 没 想到 要 那 
么 做 ， 也 许 做 起 来 没 那么 容易 ， 或 者 也 许 你 只 是 不 想 那么 做 。 如 果 是 最 
后 一 种 情况 ， 你 应 该 考虑 道德 上 是 否 有 义务 来 进行 分 享 。 我们 见 过 的 一 
个 例子 束 是 癌症 病人 ， 他 们 可 以 通过 分 享 肿瘤 的 基因 组 和 治疗 史 来 为 治 
愈 癌 症 做 页 献 。 分 享 的 好 处 远 远 不 止 这 点 。 所 有 关于 社会 和 政策 的 各 种 
问题 也 许 都 可 以 通过 了 解 我 们 每 天 产生 的 数据 来 得 到 解决 。 社 会 科学 正 
进入 一 个 黄金 时 代 只 要 数据 面向 研究 人 人员、 政策 制定 者 、 老 百姓 。 
这 并 不 意味 着 让 别人 打探 你 的 私人 生活 ， 而 是 说 要 让 他 们 看 到 已 经 掌握 
的 模型 ， 而 这 个 模型 应 该 只 包含 统计 信息 。 因 此 ， 在 你 和 他 们 之 间 ， 需 
要 一 位 可 靠 的 数据 经 纪 人 ， 保 证 你 的 数据 不 会 被 滥用 ， 也 没有 哪个 免费 
使 用 者 会 在 不 分 享 数 据 的 情况 下 束 享 受到 好 处 。 


总 之 ， 所 有 四 类 数据 的 分 享 都 有 问题 。 这 些 问 题 有 一 个 共同 的 解雇 
办 法 : 新 型 公司 与 你 的 数据 的 关系 ， 束 像 银行 和 你 的 钱 的 关系 一 样 。 银 
行 不 会 偷 你 的 钱 〈 有 也 是 极 少 数 ) 。 它 们 应 该 明智 地 对 它 进行 投资 ， 而 
且 你 的 存 球 已 经 过 FDIC 联邦 存 球 保险 公司 ) 承保 。 时 下 有 许多 公司 
提出 要 加 强 你 在 云 盘 茶 处 的 数据 ， 但 这 些 数据 与 你 的 私人 数据 银行 还 有 
很 大 有 差别。 如果 它们 是 云 提供 商 ， 则 会 把 你 限制 起 来 一 一 一 项 大 茶 忌 


《想象 一 下 ， 你 把 钱 存 在 美国 银行 ， 而 且 不 知道 你 是 否 可 以 彻底 把 钱 转 
账 到 富国 银行 ) 。 一 些 新 创 公 司 提出 要 贮藏 你 的 数据 ， 并 把 数据 交 给 广 
告 商 ， 以 换取 折扣 ; 但 对 我 来 说 ， 这 样 做 没有 抓 住 重 点 。 有 时 ， 你 想 免 
费 为 广告 商 提供 信息 ， 因 为 这 么 做 符合 你 的 利益 ， 有 时 ， 你 一 点 也 不 想 
提供 ， 而 “什么 时 候 分 享 什么 数据 ”也 是 你 的 民 好 模型 才能 解决 的 问题 。 


我 正在 想象 的 那 类 公司 会 做 以 下 几 件 事 来 赚 取 订阅 费 。 它 会 对 你 的 
网 上 互动 进行 匿名 处 理 ， 并 通过 服务 器 确定 这 些 互动 路 线 ， 然 后 通过 其 
他 用 户 将 这 些 互 动 集合 起 来 。 它 会 把 你 这 奉子 所 有 的 数据 储存 在 一 个 地 
方 一 一 包括 你 每 天 24 小 时 的 谷歌 眼镜 视频 流 〈 如 果 你 有 ) 。 它 会 对 关于 
你 和 你 的 世界 的 完整 模型 进行 学 习 ， 并 对 其 进行 持续 更 新 。 它 会 代表 你 
使 用 模型 ， 并 一 直 做 你 要 做 的 事 ， 发 挥 模 型 的 最 大 能 力 。 公 司 对 于 你 的 
基本 承 诡 是 ， 你 的 数据 和 模型 绝 不 会 在 损害 你 利益 的 情况 下 被 使 用 。 这 
样 的 保证 真 的 过 于 简单 ， 毕 竞 你 本 身 就 无 法 保证 你 绝 不 会 做 损害 自己 利 
葡 的 事 。 但 公司 的 存在 就 取决 于 这 样 的 保证 ， 就 像 银 行 的 存在 取 雇 于 它 
保证 不 会 和 弄 丢 你 的 钱 一 样 ， 因 此 你 应 该 信任 这 家 公司 ， 就 像 你 信任 你 的 
银行 一 样 。 


这 样 的 一 家 公司 会 很 快 成 为 世界 上 最 有 价值 的 公司 之 一 。 就 像 《 大 
西洋 月 刊 》 的 亚 历 克 西 斯 :马德里 加 尔 指出 的 那样 ， 当 今 你 的 简介 也 许 
能 通过 一 分 钱 或 者 更 少 的 钱 来 买 到 ， 但 一 个 用 户 对 于 互联 网 广告 业 的 价 
值 可 能 是 每 年 1200 美 元 ， 谷 歌 掌握 的 你 的 那 部 分 信息 价值 约 20 美 元 ， 脸 
书 的 是 5 美元 ， 等 等 。 除 此 之 外 ， 还 没有 谁 能 全 部 拥有 各 部 分 的 数据 ， 
而 且 完 整 的 数据 比 各 部 分 数据 的 总 和 要 多 一 一 基于 你 所 有 数据 的 模型 ， 
要 比 基 于 1000 个 部 分 数据 的 1000 个 模型 要 好 很 多 一 一 而 我 们 正在 以 每 年 
轻易 超过 1 万 亿 的 数据 作为 目标 ， 相 当 于 美国 这 样 的 经 济 体 。 利 用 这 种 
数据 创建 一 家 《财富 》500 强 公司 并 不 会 需要 很 多 费用 。 如 果 你 想 接受 
挑战 并 最 后 成 为 一 名 亿 万 富 俩 ， 那 么 记 住 你 首先 是 在 什么 地 方 得 到 这 个 
想法 的 。 


当然 ， 当 前 的 一 些 公 司 想 拥有 数码 的 你 ， 谷 歌 就 是 其 中 一 个 。 谢 尔 
兰 : 布 林 说 :“ 我 们 想 让 谷歌 成 为 你 大 脑 的 第 三 个 组 成 部 分 。” 谷 歌 的 一 
些 收 购 和 用 户 的 数据 流 补 充 公司 的 数据 库 的 好 坏 表现 不 无 和 关系。 但 是 ， 
虽然 诸如 谷歌 和 脸 书 之 类 的 公司 处 于 领先 地 位 ， 但 它们 并 不 适合 作为 你 
的 数码 家 园 ， 因 为 它们 存在 利益 冲突 。 它 们 通过 广告 分 析 来 谋生 ， 因 此 
得 权衡 你 的 利益 和 广告 商 的 利益 。 你 不 会 允许 自己 大 脑 的 第 一 或 者 第 二 
组 成 部 分 各 有 忠心 ， 第 三 组 成 部 分 就 更 别提 了 ? 


如 果 你 的 模型 看 起 来 像 非 犯 的 模型 ， 也 许 会 发 生意 想不到 的 事情 ， 
比如 政府 可 能 会 传讯 你 的 数据 ， 其 至 预防 性 地 监禁 你 ， 有 一 点 《少数 派 
报告 》 的 风格 。 为 了 抢先 一 步 ， 你 的 数据 公司 可 以 对 一 切 加 密 ， 让 你 来 
保管 钥 是 (如 今 你 甚至 不 用 解密 数据 就 可 以 计算 加 密 数据 》 。 你 也 可 以 
把 它 保 存在 家 里 的 硬盘 中 ， 公 司 会 把 软件 租 给 你 。 


如 果 不 喜 欢 僵 利 实 体 拿 着 通 往 你 王国 的 钥匙 ， 可 以 加 入 一 个 数据 联 
n 盟 (如 果 在 你 的 网 络 区 域 没有 联盟 ， 可 以 考虑 启动 一 个 ) 。20 世 纪 需 要 
工会 来 协调 工人 与 老板 之 间 的 权利 ，21 世 纪 出 于 同样 的 原因 也 需要 数据 
联盟 。 公 司 和 个 人 相 比 ， 收 集 和 使 用 数据 的 能 力 要 强大 很 多 ， 这 导致 了 
权利 上 的 不 平衡 。 数 据 越 有 价值 ， 束 越 能 从 中 掌握 更 好 、 更 有 用 的 模 
型 ， 不 对 称 也 就 越 严 重 。 数 据 联盟 让 其 成 员 与 公司 就 其 数据 使 用 进行 平 
等 交易 。 也 许 工会 能 够 使 活动 开展 起 来 ， 并 巩固 其 成 员 吴 份 ， 方 法 就 是 
为 其 成 员 开 启 数据 联盟 。 但 工会 是 根据 职业 和 地 理 位 置 组 织 起 来 的 ， 数 
据 联 盟 就 比较 灵活 一 一 加 入 和 你 有 很 多 共同 点 的 人 群 ， 那 样 掌握 的 模型 
会 更 有 用 。 请 注意 ， 加 入 数据 联盟 并 不 意味 着 可 以 让 其 他 成 员 看 到 你 的 
数据 ， 这 仪 仅 表 示 让 每 个 人 都 能 利用 通过 共享 数据 掌握 的 模型 。 你 的 数 
据 对 世界 的 影响 力 和 你 的 投票 一 样 ， 或 者 会 更 大 ， 因 为 你 只 会 在 选举 日 
去 投票 处 投票 ， 其 他 时 候 ， 你 的 数据 就 是 你 的 选票 。 站 起 来 ， 表 明 你 的 
立场 ! 


目前 为 止 ， 我 还 没有 说 到 “隐私 ”这 个 词 ， 这 并 非 意外 。 隐 私 只 是 数 


据 分 至 更 大 问题 的 一 方面 ， 如 果 我 们 在 损害 整体 的 情况 下 来 天 注 它 ， 残 
像 当今 争论 大 部 分 所 关注 的 那样 ， 那 么 就 会 有 得 出 错误 结论 的 风险 。 例 
如 ， 除 了 最 初 的 目的 ， 法 律 蔡 止 将 数据 用 于 其 他 用 途 ， 这 束 显 得 很 缺乏 
远见 “ 《苹果 权 子 经 济 学 》 中 没有 哪个 鞋 市 是 依据 该 项 法 律 规定 写 

的 ) 。 当 人 们 利用 隐私 来 换取 其 他 好 处 时 ， 正 如 当 在 网 上 填写 简介 时 ， 
隐私 表现 出 的 隐 含 价值 比 你 问 他 们 “你 在 意 你 的 隐私 吗 ” 这 种 抽象 问题 的 
价值 要 低 得 多 。 但 依据 后 者 ， 隐 私 之 争 往 往 更 容易 陷入 圈套 。 欧 盟 法 院 
发 布 俞 令 ， 人 们 有 权利 被 筷 记 ， 但 也 有 权利 来 记忆 ， 无 论 是 用 他 们 的 神 
经 元 还 是 便 盘 。 公 司 也 一 样 ， 在 一 定 程度 上 ， 用 户 、 数 据 收集 者 、 广 告 
商 的 利益 是 一 致 的 。 浪 费 注 意 力 对 谁 部 没有 好 处 ， 数 据 越 好 ， 产 品 也 会 
越 好 。 隐 私 并 不 是 一 场 零 和 游戏 ， 虽 然 有 时 它 经 名 被 当 作 零 和 游戏 。 


掌握 数据 的 你 和 数据 联盟 的 公司 的 样子 ， 对 我 来 说 ， 看 起 来 就 像 是 
在 未 来 社会 数据 变 得 成 熟 一 样 。 我 们 是 售 能 到 达 那 里 有 竺 研究 。 当 下， 
多 数 人 没有 意识 到 有 多 少 关 于 他 们 的 数据 正在 被 收集 ， 以 及 潜在 的 代价 
和 利益 是 什么 。 各 家 公司 满足 于 继续 神秘 地 完成 这 件 事 ， 因 为 担心 引 友 
诞 黄 。 但 这 贡 迟早 会 有 发生， 在 后 续 的 争论 中 ， 会 制定 更 加 严 苛 的 法 律 ， 
最 后 对 谁 都 没有 好 处 。 最 好 让 人 们 现在 树立 意识 ， 选 择 该 分 译 什 么 、 不 
该 分 译 什 么 ， 以 及 如 何 、 在 哪里 分 享 。 


神经 网 络 抢 了 我 的 工作 


你 的 工作 会 在 多 大 程度 上 用 到 你 的 大 脑 ? 用 得 越 多 ， 你 就 越 安 全 。 
在 人 工 乔 能 早期 ， 人 们 普 电 认为 ， 计 算 机 取代 白领 前 会 先 取 代 蓝 领 ， 因 
为 白领 工作 更 费 脑 力 ; 结果 却 并 非 如 此 。 一 方面 ， 机 器 人 组 装 汽 车 ， 但 
它们 疫 有 代 答 建筑 工人 ;， 另 一 方面 ， 机 器 学 习 算 法 已 经 取代 信用 分 析 员 
和 直销 商 。 其 实 ， 对 于 机 器 来 说 ， 评 估 信 用 申请 表 比 走 在 建筑 工地 不 被 


绊 倒 要 简单 ， 尽 管 对 于 人 类 来 说 恰恰 相反 。 一 个 普遍 的 主题 是 ， 狭 义 完 
义 的 任务 很 容易 通过 数据 来 完成 ， 但 那些 需要 技能 与 知识 广泛 结合 的 任 
务 却 不 能 。 你 大 脑 的 大 部 分 都 主管 视觉 和 运动 ， 这 就 意味 着 到 处 走 走 比 
表面 看 起 来 要 复杂 得 多 。 我 们 之 所 以 觉得 很 简单 ， 是 因为 “到 处 走 走 ” 经 
过 进化 已 经 练习 得 近 平 完美 ， 所 以 很 多 时 候 是 在 潜意识 中 进行 的 。 氢 事 
科学 (Narrative Science) 这 家 公司 有 一 种 人 工 智能 系统 ， 可 以 写 出 很 好 
的 棒球 比赛 总 结 ， 却 写 不 好 小 说 ， 因 为 “根据 乔治 : 威 尔 的 观点 ) 生活 
的 内 容 要 比 棒球 赛 多 很 多 。 语 音 识别 对 计算 机 来 说 比较 困难 ， 因 为 要 填 
补 空白 存在 困难 。 字 面 上 说 ， 就 是 那些 说 话 人 和 平时 会 省 略 的 发 音 《〈 当 你 
不 知道 那个 人 在 讨论 什么 时 ) 。 算 法 可 以 预测 股票 波动 ， 但 不 清楚 如 何 
将 股票 波动 与 政治 联系 起 来 。 一 项 任务 需要 的 背景 信息 越 多 ， 计 算 机 能 
迅速 完成 它 的 可 能 性 就 越 小 。 常 识 之 所 以 重要 ， 不 仪 是 因为 妈妈 教会 了 
你 ， 还 因为 计算 机 里 面 没 有 这 些 信息 。 


防止 丢掉 工作 的 最 佳 办 法 就 是 你 目 己 对 它 进 行 目 动 化 ， 这 样 就 可 以 
把 时 间 用 在 你 之 前 顾及 不 到 、 计 算 机 近期 地 无 法 做 到 的 所 有 部 分 (如 果 
没有 什么 任务 无 法 完成 ， 那 么 就 要 在 行业 保持 领先 地 位 ， 现 在 就 去 找 一 
份 新 工作 ) 。 如 果 计 算 机 已 经 学 会 完成 你 的 工作 ， 不 要 试图 与 它 竞 争 ， 
而 要 利用 它 。H&R Blook 公 司 《〈 美 国 最 大 的 报税 服务 商 ) 仍 在 运营 ， 但 
报税 人 的 工作 却 没 有 以 前 那么 枯燥 了 ， 因 为 现在 计算 机 承担 了 大 部 分 顶 
燥 的 工作 (好 了 ， 也 许 这 不 是 最 佳 例子 ， 因 为 免税 代码 的 指数 级 增长 ， 
古 为 数 不 多 的 能 够 与 计算 能 力 指 数 级 增长 相 抗衡 的 东西 )。 把 大 数据 看 
作 你 知觉 的 延伸 ， 把 学 习 算 法 看 作 你 大 脑 的 扩展 。 当 下 最 佳 棋 手 是 所 谓 
的 人 马 怪 《〈 半 人 、 半 程序 ) 。 在 其 他 许多 职业 中 情况 也 是 如 此 ， 从 证 券 
分 析 师 到 棒球 球 探 。 这 并 不 是 人 类 与 机 器 的 对 抗 ， 而 是 有 机 絮 的 人 和 没 
有 机 器 的 人 之 间 的 对 抗 。 数 据 和 直 党 就 像 马 和 骑手 ， 而 你 不 会 试图 超过 
一 匹 马 ， 你 在 罗 驭 它 。 


随 着 技术 的 进步 ， 人 和 机 器 更 加 和 密切 的 结合 体 束 形成 了 : 你 饿 了 ， 
Yelp 会 推荐 一 些 好 吃 的 餐厅 ; GPS 会 指引 你 方向 ， 你 开车 ， 汽 车 电子 会 


进行 低 水 平 控制 。 我 们 现在 都 已 经 是 半 机 圳 人 了 。 真 正 的 目 动 化 指 的 不 
是 它 代 丛 了 什么 ， 而 是 它 增强 了 什么 能 力 。 一 些 行业 消失 了 ， 但 许多 新 
的 行业 诞生 了 。 最 重要 的 是 ， 目 动 化 使 各 类 事情 成 为 可 能 ， 这 些 事 情 如 
果 由 人 类 完成 ， 将 要 付出 很 多 代价 。ATM 机 (自动 柜员 机 〉 代替 了 一 
些 银行 员工 ， 但 主要 好 处 是 它们 让 我 们 随时 随地 都 可 以 取 钱 。 如 果 像 素 
要 通过 人 类 动画 师 来 一 次 只 为 一 个 上 色 ， 那 么 就 不 会 有 《玩具 总 动员 》 
和 视频 游戏 了 。 


尽管 如 此 ， 我 们 可 以 询问 自己 最 终 是 舍 会 彻 确 完成 人 类 的 工作 。 我 
觉得 不 会 。 即 使 这 一 天 到 来 了 〈 它 不 会 很 快 束 到 ) ， 且 计算 机 和 机 器 人 
都 可 以 把 所 有 事情 做 得 更 好 ， 但 仍 有 一 些 工 作 会 留 给 一 些 人 。 机 硕 人 也 
许可 以 很 好 地 模仿 酒 保 ， 甚 至 可 与 客人 闲聊 ， 但 老 顾 客 仍然 会 更 喜欢 一 
个 他 们 认 知 的 人 类 酒 保 ， 仪 仪 因为 他 们 就 是 人 类 。 拥 有 人 类 服务 员 的 餐 
厅 会 有 额外 标志 ， 就 像 手 工 制 品 那样 。 人 类 还 古 会 去 剧院 、 骑 马 、 航 
行 ， 虽 然 我 们 已 丝 有 电影 、 汽 车 、 摩 托 艇 了 。 更 重要 的 是 ， 一 些 职业 真 
的 无 法 苦 代 ， 因 为 它们 的 工作 需要 一 种 计算 机 和 机 需 人 在 定义 上 无 法 拥 
有 的 东西 : 人 类 经 历 。 所 谓 人 类 经 历 ， 指 的 并 不 是 人 际 互 动工 作 ， 因 为 
人 际 互 动 要 造假 也 不 难 ， 比 如 机 器 人 宠物 的 成 功 。 我 指 的 是 人 文科 学 ， 
准确 地 说 ， 其 领域 包含 一 切 没 有 人 类 体验 就 无 法 理解 的 东西 。 我 们 担心 
人 文科 学 正 呈 死亡 螺旋 下 降 趋势 ， 一 旦 其 他 行业 实现 自动 化 了 ， 它 就 会 
东山 再 起 。 通 过 机 顺 低 成 本 完成 的 事情 越 多 ， 人 类 学 家 的 贡献 就 越 有 价 
值 。 


相反 ， 让 人 伤感 的 是 ， 科 学 家 的 长 远 前 景 并 不 是 最 光明 的 。 未 来 ， 
唯一 的 科学 家 很 有 可 能 就 是 计算 机 科学 家 ， 即 从 事 科 学 研究 的 计算 机 科 
学 家 。 之 前 被 人 称 为 “科学 家 ”的 人 〔 像 我 一 样 ) 会 将 其 毕生 页 献 给 理解 
计算 机 所 做 出 的 科学 进步 。 他 们 的 洱 福 感 不 会 比 以 前 明显 降低 ， 毕 况 科 
学 对 他 们 来 说 一 直 是 一 种 业余 爱好 。 对 于 有 技术 头脑 的 人 来 说 很 重要 的 
一 项 工作 会 被 留 下 来 一 一 留意 计算 机 。 实 际 上 ， 这 需要 的 不 仅 是 工程 
师 ， 基 本 上 ， 这 可 能 是 所 有 人 类 的 全 职工 作 ， 即 弄 明 白 我 们 想 从 机 器 那 


里 得 到 什么 ， 并 保证 我 们 会 得 到 这 些 东 西 一 一 本 章 后 部 分 会 详细 谈 到 。 


同时 ， 随 独 目 动 化 与 非 目 动 化 工作 跨越 经 济 领域 ， 我 们 可 能 会 看 到 
失业 率 渐渐 增长 ， 越 来 越 多 的 行业 薪水 下 探 ， 无 法 自动 化 的 行业 越 来 越 
少 ， 但 报酬 却 越 来 越 高 。 当 然 ， 这 种 情况 已 经 发 生 ， 但 路 还 很 长 。 过 小 
期 会 充满 又 乱 ， 但 多 亏 了 民主 ， 它 会 有 一 个 圆满 的 结局 〈 紧 握 你 的 选 
票 ， 筷 可 能 会 成 为 你 最 有 价值 的 东西 ) 。 当 失业 率 上 升 超过 50% 时 ， 甚 
至 小 于 这 一 数字 时 ， 关 于 重新 分 布 的 态度 会 彻底 改变 。 一 批 刚 失业 的 大 
部 分 人 会 把 选票 投 给 慷慨 的 终身 失业 救 痢 金 ， 以 及 用 于 资助 他 们 的 高 昂 
税收 。 这 些 做 法 并 不 会 耗 尽 资源 ， 因 为 机 器 会 进行 必要 的 生产 。 最 终 ， 
一 开始 我 们 会 讨论 就 业 率 而 不 是 失业 率 ， 而 降低 失业 率 将 被 看 作 进步 的 
标志 〈“ 美 国正 在 倒退 ， 我 们 的 就 业 率 仍然 保持 在 239%”) 。 失 业 妾 贴 将 
被 发 放 给 每 个 人 的 基本 收入 代 珍 。 不 满足 于 基本 收入 的 那些 人 会 赚 得 更 
多 ， 在 所 剩 无 几 的 人 类 职业 中 大 赚 一 笔 。 目 由 和 和 保守 和 党 仍然 会 因为 税 
率 而 争吵 ， 但 球门 柱 已 经 被 永远 移 走 了 。 随 独 丈 动力 总 价值 的 又 减 ， 节 
富裕 的 国家 将 是 那些 自然 资源 与 人 口 比例 最 高 的 国家 现在 移 到 加 拿 大 
了 ) 。 对 于 那些 不 工作 的 人 ， 生 活 不 会 变 得 没有 意义 ， 最 多 就 像 在 热带 
马 屿 上 ， 那 里 大 目 然 的 恩赐 满足 了 所 有 和 需求， 生活 才 变 得 没有 意义 。 礼 
品 经 济 将 会 及 展 起 来 ， 开 源 软件 运动 将 是 预告 。 人 们 在 人 际 关 系 、 目 我 
实现 、 灵 性 中 寻找 意义 ， 就 和 现在 他 们 做 的 一 样 。 谋 生 的 需要 将 会 变 成 
遥远 的 记忆 ， 这 是 我 们 克服 的 又 一 个 人 类 的 原始 过 去 。 


战争 不 属于 人 类 


对 服役 目 动 化 比 对 科学 上 自动 化 要 困难 ， 但 最 终 会 实现 的 。 机 右 人 的 
主要 用 途 之 一 就 是 完成 那些 对 人 类 来 说 过 于 危险 的 任务 ， 战 争 也 一 样 危 
险 。 机 顺 人 已 经 可 以 拆 反 炸 弹 ， 而 无 人 机 可 以 使 一 个 团 看 清 整 座 山 。 目 


芍 供 应 卡车 和 机 器 又 (robotic mule) 正在 研发 当中 。 很 快 我 们 就 要 决定 
是 否 允 许 机 器 人 自己 扣 动 扳机 。 因 为 这 样 做 之 所 以 存在 争论 ， 是 因为 虽 
然 可 以 让 人 类 远离 伤害 ， 但 远程 控制 在 移动 迅速 、 不 是 你 死 就 是 我 亡 的 
情况 中 不 太 切 实 可 行 。 反 对 的 人 认为 ， 机 器 人 没有 道德 标准 ， 所 以 无 法 
让 它们 决定 某 个 生物 的 生死 。 但 我 们 可 以 教会 它们 ， 更 深层 次 的 问题 在 
于 ， 我 们 是 否 准备 好 这 么 做 了 。 


要 重申 诸如 军事 需要 原则 、 相 称 原则 、 宽 恕 民众 原则 等 之 类 的 总 则 
并 不 困难 ， 但 它们 与 具体 行动 之 间 存 在 滁 沟 ， 士 兵 的 判断 就 是 要 填补 这 
道 泗 沟 。 当 机 器 人 将 阿 西 英 夫 的 机 右 人 学 三 条 定律 运用 到 实践 中 时 ， 很 
快 就 会 产生 麻烦 ， 他 的 故事 束 深 刻 阐 明了 这 一 点 。 忌 则 通常 要 么 会 有 了 巴 
盾 ， 要 么 会 目 相 下 慎 ， 以 免 将 所 有 情况 都 判定 为 非 黑 即日 。 什 么 时 候 军 
事 需 要 会 比 宽恕 民众 重要 ? 没有 统一 的 答案 ， 也 没有 什么 方法 来 对 一 合 
包含 所 有 可 能 性 的 计算 机 进行 编程 。 然 而 ， 机 器 学 习 提供 了 和 蔡 代 的 方 
法 。 首 移 ， 教 会 机 器 人 来 识别 相关 概念 ， 例 如 ， 可 以 利用 各 类 情况 的 数 
据 集 ， 这 些 情况 包括 : 民众 得 到 与 得 不 到 宽恕 ， 武 装 反 应 相称 与 不 相称 
等 。 然 后 以 涉及 这 些 概 念 的 规则 的 形式 ， 赋 予 它 行为 准则 。 最 终 ， 让 机 
器 人 学 会 如 何 通过 观察 人 类 来 应 用 这 些 准 则 : 士兵 在 这 种 情况 下 会 开 
火 ， 但 在 另外 一 种 情况 下 不 会 开火 。 通 过 概括 这 些 例 子 ， 机 器 人 可 以 掌 
握 一 个 端 到 端 模 型 ， 比 如 可 以 以 大 型 多 逻辑 节点 的 形式 来 做 道德 决 集 。 
一 旦 机 器 人 的 决策 和 共 个 人 类 的 一 致 ， 而 这 个 人 的 决策 又 往往 与 他 人 的 
一 致 ， 那 么 训练 就 完成 了 ， 意 味 着 模型 可 以 被 下 载 ， 并 用 于 数 和 干 个 机 器 
人 的 大 脑 。 不 像 人 类 ， 机 器 人 在 激烈 的 战斗 中 不 会 失去 理智 。 如 果 机 器 
人 出 现 故 障 ， 制 造 商 就 得 负责 任 ， 如果 机 器 人 打 错 电话 ， 教 它 的 人 就 得 
负责 任 。 


这 个 方案 的 主要 问题 也 许 你 已 经 猜 到 ， 就 是 让 机 器 人 通过 观察 人 类 
来 学 习 道 德 标准 并 不 是 一 个 好 主意 。 当 机 器 人 看 到 人 类 的 行为 经 常 违背 
道德 准则 时 ， 它 就 会 变 得 非常 困惑 。 我 们 可 以 清理 训练 数据 ， 方 法 包含 
所 有 这 些 例子 : 道德 学 家 小 组 一 致 同意 ， 士 兵 做 了 正确 的 决定 ， 而 专家 


小 组 成 员 也 可 以 在 学 习 之 后 ， 对 模型 进行 检查 和 微调 以 满足 他 们 的 要 

求 。 音 见 可 能 难以 统一 ， 但 是 ， 如 果 小 组 包含 所 有 各 种 不 同 的 人 ， 它 束 
该 被 统一 。 问 机 器 人 教授 伦理 道德 ， 因 为 它们 的 逻辑 思维 没有 负担 ， 这 
会 迫使 我 们 检查 我 们 的 假设 ， 然 后 对 目 己 的 让 盾 行 为 进行 分 类 。 在 这 个 
领域 里 《其 他 许多 领域 ) ， 机 器 学 习 最 大 的 好 处 也 许 不 在 于 机 器 学 习 了 
什么 ， 而 在 于 通过 教授 这 些 机 圳 ， 我 们 学 会 了 什么 。 


另 一 个 反对 建立 机 器 人 军队 的 观点 是 ， 它 们 使 战争 变 得 太 容 易 。 但 
如 果 我 们 单方 面 放弃 建立 机 器 人 大 车 ， 可 能 会 引起 下 一 场 战 争 。《 逻 辑 
反应 》 (The Logical Response) 由 联合 国 和 人 权 观 察 组 织 主 张 ， 是 一 个 
禁 目 机 堪 人 战争 的 协议 ， 和 1925 年 颁布 的 禁止 生化 战争 的 《日 内 瓦 公 
约 》 类 似 。 但 是 ， 这 里 忽略 了 一 个 重要 的 不 同 点 。 生 化 战争 只 会 增加 人 
类 的 痛 苗 ， 但 机 器 人 战争 可 以 很 大 程度 上 减轻 痛 否 。 如 果 战 争 是 机 器 人 
参与 战斗 ， 人 类 只 是 指挥 ， 束 不 会 有 人 受伤 或 者 死记 了。 那么 也 许 我 们 
该 做 的 ， 不 是 放逐 机 器 人 士兵 ， 而 是 〈 当 我 们 准备 好 时 〉 放逐 人 类 士 
乒 
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机 项 人 和 军队 确实 使 战争 发 生 的 可 能 性 变 大 ， 但 它们 也 会 改变 战争 的 
伦理 学 。 如 果 目 标 是 其 他 机 器 人 ， 射 击 与 不 射击 的 困境 会 容易 解决 得 
多 。 现 代 观 点 认为 战争 恐怖 得 无 法 形容 ， 人 们 在 迫不得已 时 才 会 采取 战 
争 手 段 。 这 种 观点 会 被 一 个 稍 有 差别 的 观点 殖 代 ， 即 认为 战争 是 一 种 毁 
灭 性 的 狂欢 ， 会 使 所 有 参战 方 变 得 贫穷 ， 所 以 最 好 避免 战争 ， 但 也 不 能 
因为 避免 战争 而 付出 所 有 代价 。 如 果 将 战争 还 原 为 一 场 苋 赛 ， 目 的 是 看 
看 谁 的 摧 恕 能 力 最 强 ， 那 么 为 什么 不 比比 谁 创 造 的 价值 最 多 呢 ? 


无 论 如 何 ， 茶 止 机 器 人 战争 也 许 不 太 可 行 。 未 来 无 论 是 大 国 还 是 小 
国 ， 都 会 忙 着 研发 〈 而 完全 不 是 禁止 ) 遥控 飞机 《未 来 战争 机 器 人 的 前 
喘 ) ， 因 为 它们 倍 计 这 样 做 的 好 处 大 于 风险 。 和 所 有 武器 一 样 ， 目 己 拥 
有 机 器 人 ， 比 信任 另 一 方 认为 不 该 有 机 器 人 更 安全 。 如 果 在 未 来 战争 
中 ， 数 捍 万 架 神 风 系 列 遥 控 飞 机 将 会 在 几 分 钟 之 内 拱 恕 传统 的 军队 ， 写 


们 最 好 是 我 们 的 遥控 飞机 。 如 果 第 三 次 世界 大 战 会 在 数秒 内 结束 ， 也 就 
是 一 方 控制 男 一 方 的 系统 ， 我 们 最 好 还 是 具备 更 加 智能 、 更 加 快速 、 更 
加 有 复原 力 的 网 络 ( 离 网 系统 不 是 解决 办 法 ， 因 为 虽然 没有 经 过 网 络 连 
接 的 系统 不 会 被 黑 ， 但 它们 也 无 法 和 连接 网 络 的 系统 相 比 较 ) 。 总 而 言 
之 ， 如 果 机 器 人 装备 竞赛 能 加 速 《 日 内 瓦 第 五 公约 》 三 禁止 人 类 参与 战 
争 的 进程 ， 也 许 这 也 是 一 件 好 事 。 战 争 会 一 直 陪 伴 我 们 ， 但 战 死 则 不 一 
定 是 必然 的 。 


谷歌 十 终极 算法 = 天 网 ? 


当然 ， 机 器 人 军队 也 会 引起 完全 不 一 样 的 恐 忆 。 根 据 好 莱 坞 电影 ， 
人 类 的 未 来 将 会 被 庞大 的 人 工 智 能 及 其 大 量 的 机 器 小 兵 扼 杀 (当然 ， 除 
韭 有 一 位 有 胆量 的 英雄 在 电影 最 后 5 分 钟 挽回 了 局 面 )。 谷 歌 已 经 拥有 
这 样 的 人 工 乔 能 所 需要 的 庞大 人 硬件， 而 且 最 近 已 经 由 一 些 机 器 人 创业 公 
司 来 运行 了 。 如 果 我 们 将 终极 算法 置 入 其 服务 器 ， 那 么 人 类 会 毁灭 吗 ? 
当然 会 。 是 时 候 表 明 我 的 真正 安排 了 ， 对 于 托 尔 金 ， 我 表示 抱歉 : 


三 大 算法 归属 天 下 科学 家 ， 

七 大 算法 归属 服务 器 工程 师 ， 

九 种 算法 属于 阳 寿 可 数 的 凡人 ， 

还 有 一 种 属于 融 居 御 座 的 黑暗 人 工 智 能 。 
学 习 和 工法 之 大 地 黑 影 蛋 蛋 。 

一 种 算法 统领 众 式 ， 尽 归 罗 网 ， 

一 种 算法 禁 铀 众 式 ， 异 瞳 无 光 。 


学 习 算 法 之 地 黑 影 收 蛋 。 


哈哈 ! 严肃 地 说 ， 我 们 该 不 该 担心 机 器 人 会 接管 世界 ? 有 种 种 不 祥 
的 预兆 。 一 年 接着 一 年 ， 计 算 机 所 做 的 世界 性 工作 并 没有 变 多 ， 它 们 做 
得 更 多 的 是 决策 。 谁 拿 到 信用 卡 ， 谁 购买 什么 ， 谁 得 到 什么 工作 和 什么 
样 的 升 职 机 会 ， 哪 只 股票 会 上 涨 和 下 跌 ， 保 险 花 费 多 少 ， 和 警官 会 在 哪里 
巡逻 ， 然 后 谁 会 被 逮捕 、 刑 期 会 有 多 长 ， 谁 约 了 谁 、 又 生 了 谁 一 一 通过 
机 需 掌 握 的 模型 已 经 在 所 有 这 些 事情 中 起 作用 。 关 掉 我 们 的 所 有 计算 机 
而 不 会 引起 现代 文明 骨 尝 的 时 刻 早已 过 去 。 机 器 学 习 是 最 后 一 根 稻 草 ， 
如 果 可 以 开始 进行 目 我 编程 ， 那 么 所 有 控制 它们 的 希望 都 肯定 会 沙 空 。 
著名 科学 家 如 史 带 分 霍金 已 经 呼吁 趁早 研究 这 个 问题 。 


放 轻 松 ， 备 有 终极 算法 的 人 工 智能 接管 世界 的 概率 是 零 。 原 因 很 简 
: 不 像 人 类 ,计算机 本 里 并 没有 自己 的 意志 。 它 们 是 工程 师 生产 的 产 
， 而 不 是 进化 体 。 即 使 无 限 强 大 的 计算 机 ， 也 仅仅 是 我 们 意志 的 延 
， 没 什么 可 怕 的 。 回 忆 一 下 每 种 学 习 算法 的 三 个 组 成 部 分 : 表示 方 
、 评 估 、 优 化 。 学 习 算法 的 表示 方法 限制 了 它 能 学 习 的 内 容 。 让 我 们 
把 它 想象 成 很 强大 的 学 习 算 法 ， 比 如 马尔 科 夫 逻辑 ， 那 么 该 学 习 算 法 原 
则 上 可 以 学 习 任 何 东 西 。 接 着 最 优化 器 会 在 其 权力 范围 内 ， 做 所 有 工作 
来 将 评估 功能 最 大 化 一 一 不 多 也 不 少 一 一 而 评估 功能 “是 由 我 们 决定 
的 ”。 一 台 更 强大 的 计算 机 只 会 把 它 优化 得 更 好 。 掌 握 的 系统 如 果 过 去 
不 按照 我 们 想 要 的 来 做 事 ， 那 么 它 束 会 严重 不 适合 ， 因 此 就 会 消失 。 实 
际 上 ， 那 些 一 代 接 一 代 、 能 稍微 更 好 地 服务 我 们 的 系统 会 呈现 多 样 化 并 
接管 基因 库 。 当 然 ， 如 采 我 们 是 奋 到 故意 对 计算 机 进行 编程 ， 让 其 竣 引 
于 我 们 之 上 ， 那 么 我 们 就 该 被 统治 。 


注 侠 织 己 


同样 的 推理 也 可 用 于 所 有 人 工 乔 能 系统 ， 因 为 它们 都 (明确 或 者 含 
蓄 地 〉 具备 同样 的 三 个 组 成 部 分 。 它 们 可 以 多 样 化 它们 做 事 的 内 容 ， 甚 
至 想 出 惊人 的 计划 ， 但 仅仅 服务 于 我 们 设 定 给 它们 的 目标 。 如 果 一 个 机 
器 人 被 设 定 的 目标 是 “做 一 顿 大 餐 ”， 它 可 能 会 决定 融 一 份 牛排 、 趣 一 份 
法 式 海鲜 浓 汤 ， 或 者 做 一 道 独创 的 新 亲 式 ， 但 它 无 法 决定 谋杀 它 的 主 
人 ， 束 像 汽车 无 法 确定 飞 走 那 样 。 人 工 知 能 系统 的 目标 就 是 要 解决 NP 


完全 问题 (你 可 能 会 联想 到 第 二 章 ) ， 解 决 这 个 问题 可 能 需要 指数 级 的 
时 间 ， 但 解决 方法 总 可 以 得 到 有 效 验 证 。 因 此 我 们 应 该 张 开 怀抱 欢迎 比 
我 们 大 脑 强大 很 多 的 计算 机 ， 因 为 我 们 的 工作 要 比 它们 的 简单 很 多 ， 知 
道 这 一 点 就 安心 了 。 它 们 得 解决 问题 ， 我 们 只 要 保证 它们 做 的 事 能 让 我 
们 满意 。 对 于 一 些 东西 ， 我 们 思考 得 很 慢 ， 但 人 工 智能 却 很 快 ， 而 这 个 
世界 对 它们 来 说 也 将 是 更 好 的 世界 。 我 《作为 人 类 中 的 一 个 ) 欢迎 我 们 
的 新 型 机 器 人 下 属 。 


有 人 担心 智能 机 器 会 掌握 控制 权 ， 这 很 自然 ， 因 为 我 们 知道 的 唯一 
智能 实体 就 是 人 类 和 其 他 动物 ， 而 它们 明确 具备 自己 的 意志 。 但 没有 必 
要 将 智能 意志 和 独立 意志 联系 起 来 ， 更 确切 地 说 ， 智 能 也 许 并 不 适应 同 
样 的 主体 ， 只 要 它们 之 间 存 在 统治 。 在 《延伸 的 表现 型 》 一 书 中 ， 理 查 
德 . 道 金 斯 表明 大 自然 中 充满 了 动物 基因 不 仅 控 制 其 身体 的 例子 ， 从 布 
技术 就 是 人 类 的 延伸 表现 型 。 这 意味 着 我 们 可 以 

继续 控制 它 ， 即 使 它 会 变 得 复杂 到 让 我 们 难以 理解 。 


假设 两 条 20 亿 年 前 的 DNA 在 它们 的 “私人 泳池 ” re 
质 ) 中 “游泳 ”。 它 们 正在 思考 一 项 重大 决策 。“ 我 在 担心 ， 戴 安娜 ， 
中 的 一 条 说 , “如 果 我 们 开始 制造 多 细胞 生物 ， ws 
在 快 进 到 21 世 纪 ， 此 时 DNA 仍 然 活着 而 且 很 健康 。 实 际 上 ， 比 以 往 更 好 
的 是 ， 越 来 越 大 比例 的 DNA 安 全 地 存在 两 足 有 机 体 中 ， 组 成 数 以 亿 计 的 
细胞 。 自 从 我 们 的 双 链 “朋友 ”做 出 它们 的 重大 决定 ， 这 就 变 得 很 麻烦 
了 。 人 类 就 是 它们 创造 的 最 难以 对 付 的 生物 ， 我 们 发 明 出 诸如 避孕 之 类 
的 东西 来 让 自己 寻找 乐趣 ， 而 又 不 用 传播 DNA， 且 我 们 具备 (或 者 说 似 
平 具备 ) 自由 的 意志 。 但 还 是 DNA 形 成 了 我 们 对 于 乐趣 的 概念 ， 而 我 们 
利用 自己 的 自由 意志 来 追求 快乐 和 避免 痛苦 ， 这 很 大 程度 上 仍然 与 对 我 
们 DNA 生 存 最 有 利 的 东西 相符 。 如 果 我 们 选择 将 自己 变 成 硅 ， 那 么 我 们 
也 许 是 DNA 灭 亡 的 产物 ， 但 即使 那样 ， 这 也 是 一 段 伟大 的 20 亿 年 历史 。 
当今 我 们 面 对 的 决定 也 相似 如果 我 们 开始 制造 人 工 智能 一 一 庞大 的 、 
相互 连接 的 、 超 人 类 的 、 难 以 理解 的 人 工 智能 一 一 那么 它们 会 统治 世界 


吗 ? 最 多 就 像 多 细胞 有 机 体 取代 基因 ， 对 于 它们 来 说， 我 们 可 能 也 是 庞 
大 的 、 难 以 理解 的 。 人 工 答 能 是 我 们 的 幸存 机 器 ， 和 我 们 是 我 们 基因 的 
羊 存 机 器 同一 个 道理 。 


然而 ， 这 并 不 意味 着 没有 什么 可 以 担心 了 。 最 大 的 忧虑 是 ， 和 所 有 
技术 一 样 ， 人 工 智 能 可 能 会 落 入 不 法 之 徒手 里 。 如 果 罪 犯 或 者 搞 恶 作 剧 
的 人 对 人 工 智 能 进行 编程 ， 用 于 统治 世界 ， 我 们 最 好 有 人 工 乔 能 警察 局 
来 抓 住 他 们 ， 并 消灭 他 们 以 防 其 道 遥 法 外 。 为 了 避免 庞大 的 人 工 智 能 变 
得 疯狂 ， 最 佳 的 保险 措施 束 是 有 更 庞大 的 人 工 智 能 来 维护 和 平 。 


第 二 个 忧 展 就 是 人 类 会 目 愿 届 服 于 统治 。 筷 始 于 机 器 人 的 权力 ， 对 
我 但 并 不 是 所 有 人 来 说 有 点 欧 雇 。 毕 竟 ， 我 们 已 经 把 权力 赋予 了 动物 ， 
但 动物 却 从 不 要 求 有 权力 。 在 扩张 “共鸣 疾 * 中 ， 其 下 一 步 束 是 机 如 人 权 
力 应 该 算是 合情合理 。 对 机 器 人 表示 同情 并 不 难 ， 尤 其 设计 它们 就 是 为 
了 唤起 同情 。 即 使 是 日 本 的 “虚拟 宠物 "”， 只 有 三 个 按键 、 一 个 LCD 〔〈 液 
品 显 示 霹 ) 屏幕 ， 也 能 成 功 唤起 同情 。 第 一 个 像 人 的 消费 者 机 右 人 会 引 
发 竞赛 : 制造 越 来 越 多 唤起 同情 心 的 机 器 人 ， 因 为 它们 卖 得 比 一 般 的 金 
属 机 器 人 要 好 得 多 。 由 机 器 人 奶奶 带 大 的 孩子 会 终身 容易 被 友好 的 电子 
朋友 感动 。“ 翁 怖 谷 理论 ”一 一 对 于 那些 接近 人 类 但 又 不 是 人 类 的 机 器 
人 ， 我 们 会 有 不 适 感 一 一 对 他 们 来 说 将 会 无 法 理解 ， 因 为 他 们 带 着 机 器 
人 的 习性 长 大 ， 甚 至 可 能 会 变 成 酷 酷 的 青少年 。 


在 隐伏 的 人 工 智 能 统治 的 进程 中 ， 下 一 步 就 是 让 它们 做 所 有 决 集 ， 
因为 它们 是 如 此 智能 。 当 心 ! 它们 可 能 会 更 加 智能 ， 但 它们 服务 于 任何 
设计 出 它们 计 分 函数 的 人 。 这 就 是 “绿野仙踪 ”问题 。 在 智能 机 器 人 的 世 
界 中 ， 你 的 工作 就 是 要 确保 它们 做 了 你 想 做 的 事 ， 无 论 是 在 输入 《〈 设 定 
目标 ) 时 ， 还 是 在 输出 《检查 你 得 到 了 目 己 要 求 得 到 的 东西 ) 时 。 如 宁 
你 不 这 样 做 ， 会 有 其 他 人 做 。 机 器 可 以 帮助 我 们 弄 明 白 总 体 来 说 我 们 想 
要 什么 ， 但 如 果 你 不 参与 ， 就 会 输 挥 一 一 束 像 民主 一 样 ， 只 有 参与 你 才 
不 会 输 。 和 当今 我 们 相信 的 相反 ， 人 类 太 容易 遵守 别人 的 规划 ， 而 任何 


足够 先进 的 人 工 智 能 都 无 法 区 别 于 上 第 。 人 类 不 会 介意 听取 来 自 菜 台 广 
妙 深奥 的 计算 机 的 前 进 命令 ， 问 题 在 于 谁 来 监督 监督 者 。 人 工 智 能 通 往 
的 是 更 完善 的 民主 ， 还 是 更 潜伏 的 专政 ? 永恒 的 监视 才刚 刚 开 始 。 


第 三 个 忧虑 (可 能 也 是 最 大 的 ) 就 是 像 众所周知 的 魔 仆 一 样 ， 机 器 
会 给 我 们 要 求 的 而 不 是 想 要 的 东西 。 这 并 不 是 一 种 假设 性 情景 分 析 ， 学 
习 算 法 会 一 直 做 这 件 事 。 我 们 训练 神经 网 络 来 识别 马匹 ， 但 它 掌握 的 却 
是 褐 块 ， 因 为 所 有 的 马匹 机 器 训练 集 刚 好 是 神色 的 。 你 只 是 买 一 块 手 
表 ， 所 以 亚马逊 推荐 了 类似 的 商品 一 一 其 他 手表 ， 此 时 手表 变 成 你 最 不 
想 买 的 东西 。 如 果 你 检查 计算 机 今天 所 做 的 所 有 决定 ， 比 如 谁 拿 到 信用 
卡 ， 就 会 发 现 这 些 决 定 第 第 不 必要 那么 糟 烷 。 如 果 你 的 大 脑 是 一 台 支 持 
回 量 机 ， 且 你 的 所 有 信用 评估 知识 从 阅读 一 个 糟糕 的 数据 库 中 得 来 ， 你 
的 决定 也 会 变 成 那样 。 人 们 担心 计算 机 会 变 得 过 于 智能 而 统治 世界 ， 但 
真正 的 问题 是 ， 它 们 也 很 患 蕊 但 已 经 统治 世界 。 


进化 的 第 二 部 分 


即使 当今 计算 机 还 不 是 非常 智能 ， 但 无 疑 它 们 的 智力 却 在 快速 提 
升 。 早 在 1965 年 ，IJ 古 德 天 国 (一 位 统计 学 家 以 及 阿兰 :图 灵 在 第 二 次 
世界 大 战 中 密码 破解 项 目 上 的 伙伴 ) 就 推测 到 即将 到 来 的 “智能 爆炸 ”。 
古 德 指 出 ， 如 果 我 们 可 以 设计 出 比 自己 还 要 智能 的 机 各 ， 反 过 来 ， 它 们 
也 可 以 设计 出 比 它 们 更 加 智能 的 机 器 ， 就 这 样 无 休止 继续 下 去 ， 让 人 类 
智能 落 在 后 面 。 在 1993 年 的 一 篇 文章 中 ， 弗 诡 : 文 奇 将 其 命名 为 “ 奇 
点 ”。 这 个 概念 经 过 雷 ' 库 效 韦 尔 得 到 最 大 推广 ， 他 在 《 奇 点 临近 》 中 指 
出 ， 不 仅仅 奇 扣 不 可 避免 ， 而 且 机 器 智能 超越 人 类 智能 的 时 刻 〔 让 我 们 
称 之 为 “反观 点 ”) 也 将 会 在 未 来 几 十 年 到 达 。 


显然 ， 如 案 没 有 机 器 学 习 一 一 设计 程序 的 程序 一 一 奇 点 将 无 法 友 


生 。 我 们 也 会 需要 足够 强大 的 硬件 ， 但 那 会 很 顺利 地 达到 。 我 们 发 明 出 
终极 算法 之 后 很 快 束 会 达到 “反观 点 ”( 我 愿意 和 库 效 韦 尔 赌 一 瓶 唐 : 培 
里 依 香 柜 王 ， 觉 得 这 会 在 我 们 对 大 脑 进行 逆向 工程 前 就 会 发 生 ， 逆 向 工 
程 是 他 选择 的 用 于 到 达 人 类 水 平 智能 的 方法 )。 


“ 奇 反 ”这 个 术语 源 于 数学 ， 表 示 此 处 有 一 个 使 沙 数 变 成 无 穷 大 函数 
的 点 。 例 如 ， 当 x 为 0 时 ，1/x 这 个 函数 就 会 有 奇 皮 ， 因 为 1 除 以 0 的 得 数 
古 无 穷 大 。 在 物理 学 中 ， 奇 点 的 典型 例子 就 是 黑洞 : 密度 为 无 限 大 的 
扩 ， 此 处 有 限 数量 的 物质 被 窟 入 无 穷 小 的 空间 中 。 奇 点 的 唯一 问题 残 在 
于 它们 并 不 是 真正 存在 的 (你 上 次 给 0 个 人 切 和 蛋糕 ， 每 个 人 都 会 拿 到 无 
数 块 重 料 是 什么 时 候 )。 在 物理 学 中 ， 如 果 某 个 理论 预测 茶 物 无 穷 大 ， 
那么 这 个 理论 就 会 出 问题 。 举 个 恰当 的 例子 ， 广 义 相对 论 也 许 会 预测 ， 
黑洞 有 无 穷 大 的 密度 ， 因 为 它 忽 略 了 量子 效应 。 同 样 ， 知 能 无 法 永远 都 
在 提高 。 库 兹 韦 尔 承认 了 这 一 点 ， 但 他 指 的 是 技术 改进 处 理 器 速度 、 
记忆 容量 等 ) 中 的 一 系列 指数 曲线 ， 并 提出 这 种 增长 的 界限 是 如 此 遥 
远 ， 我 们 不 必 纠 缠 于 这 些 界限 。 


库 兹 韦 尔 过 拟 合 了 。 他 准确 地 批评 别人 ， 因 为 他 们 总 是 进行 线性 推 
盯 一 一 看 到 直线 而 不 是 曲线 但 也 深 受 更 为 奇异 的 疾病 之 害 : 指数 随 
处 可 见 。 在 曲线 中 会 有 平 直 部 分 什么 也 没 发 生 一 一 他 看 到 还 没有 疾 
升 的 指数 ， 它 们 是 S 形 曲线 〈 我 们 在 第 四 章 的 好 朋友 ) 。S 形 曲线 的 开始 
部 分 会 容易 被 误 以 为 是 一 个 指数 ， 但 它们 会 很 快 偏离 。 多 数 库 兹 韦 尔 曲 
线 是 摩尔 定律 的 结果 ， 处 于 快要 结束 的 状态 。 库 效 韦 尔 认 为 ， 其 他 技术 
会 代 蔡 半导体 ， 而 S 形 曲线 会 堆 在 S 形 曲线 上 ， 每 条 曲线 都 比 前 一 条 要 
陡 ， 但 这 是 猜测 。 他 进一步 提出 ， 地 球 上 生命 的 整个 历史 ， 不 仅仅 是 人 
类 技术 表现 出 呈 指 数 加 速 发 展 ， 但 产生 这 种 感觉 至 少 部 分 原因 在 于 视差 
的 影响 离 得 比较 近 的 东西 似乎 移动 得 更 快 。 处 于 寄 武 纪 灯 发 时 的 酷 
热 中 的 三 叶 虫 ， 因 为 相信 指数 加 速 发 展 而 得 到 宽恕 ， 不 过 有 一 个 很 大 的 
减速 。 暴 龙 雷 〈Tyranno saurus Pay) 也 许 会 提出 一 个 加 速 扩 大 体型 。 真 
核 细 胞 《我们 ) 进化 的 速度 要 比 原 核 生 物 〈 细 天 ) 要 慢 。 进 化 的 过 程 是 


时 进 时 退 ， 不 可 能 总 是 顺利 加 速 。 


为 了 回避 这 样 一 个 问题 ， 无 限 密集 的 点 不 存在 ， 库 效 韦 尔 提出 将 奇 
点 与 黑洞 的 视界 等 同 起 来 ， 黑 洞 视界 的 重力 如 此 强大 ， 光 线 也 无 法 逃 
脱 。 同 样 ， 他 说 ， 奇 点 就 是 这 样 一 个 点 ， 在 这 个 点 之 外 技术 演化 进行 得 
如 此 快速 ， 人们 都 无 法 预测 或 者 了 解 将 要 发 生 什 么 。 如 宁 那 就 是 奇 点 ， 
那么 我 们 已 经 在 它 里 面 。 我 们 无 法 提前 预测 一 种 学 习 算 法 会 想 出 什么 主 
意 ， 甚 至 我 们 在 回顾 过 去 时 常常 无 法 理解 它 。 实 际 上 ， 我 们 一 直 生 活 在 
这 样 一 个 只 能 理解 茶 些 部 分 的 世界 中 。 主 要 的 差别 在 于 ， 我 们 的 世界 现 
在 部 分 创造 了 我 们 ， 这 肯定 是 改善 之 处 。“ 反 观点 ”之 外 的 世界 对 我 们 来 
说 会 不 可 思议 ， 就 像 更 新 世 一 样 。 我 们 将 会 把 注意 力 集中 在 上 自己 能 理解 
的 事物 上 ， 正 如 我 们 一 下 做 的 ， 并 将 剩 下 的 称 为 “随机 的 "(或 者 “神圣 
的 ”) 。 


我 们 所 处 的 轨道 不 是 奇 点 ， 而 是 相 变 。 它 的 临界 点 一 一 反观 点 一 一 
当 机 咒 学 习 赶 上 目 然 多 样 化 时 ， 反 观点 就 会 到 来 。 目 然 学 习 法 本 身 已 经 
经 历 了 三 个 阶段 : 进化 、 大 脑 、 文 化 。 每 个 阶段 都 是 前 一 个 阶段 的 产 
物 ， 而 且 每 个 阶段 都 会 学 得 更 快 。 机 器 学 习 迎 辑 上 是 该 进程 的 下 一 阶 
段 。 计 算 机 程序 是 世界 上 最 快速 的 复制 者 : 复制 它们 只 需要 不 到 一 秒 ， 
但 创造 它们 却 比 较 缓 慢 〈 如 果 这 件 事由 人 类 完成 ) 。 机 器 学 习 死 服 了 瓶 
颈 期 ， 留 下 最 后 一 个 : 人 类 可 接受 改变 的 速度 。 这 个 到 最 后 也 会 被 克 
服 ， 但 并 不 是 因为 我 们 决定 将 东西 移交 给 我 们 的 “智能 后 代 ”， 正 如 汉 斯 
莫 拉 维 克 所 称呼 的 那样 ， 然 后 温柔 地 走 进 美 好 的 夜晚 。 人 类 并 不 是 生 
命 之 树 上 垂死 的 校 耻 ， 相 反 ， 我 们 开始 出 现 分 支 。 


文化 和 更 大 的 大 脑 共同 进化 ， 与 此 类 似 ， 我 们 会 与 自己 的 创造 物 一 
起 进展 。 我 们 一 直 具 备 一 一 如 琳 我 们 没有 发 明火 或 者 长 予 ， 那 么 人 类 从 
外 表 上 看 会 有 差别 。 我 们 是 “技术 人 ”， 和 智 人 差不多 。 但 在 第 九 章 中 我 
设想 的 那 种 细胞 模型 也 会 考虑 全 新 的 东西 一 一 在 你 所 提供 参数 的 基础 上 
设计 细胞 的 计算 机 ， 以 及 以 同样 方式 在 功能 规格 的 基础 上 设计 微 公 片 的 


硅 编 译 器 。 对 应 的 DNA 可 以 合成 并 插入 一 个 “通用 ?细胞 ， 将 其 转化 成 想 
要 的 那个 。 殉 雷 格 : 文 特 尔 是 基因 组 的 先锋 ， 已 经 在 这 个 方向 迈 出 第 一 
步 。 首 先 ， 我 们 会 利用 这 股 力 量 来 抗击 疾病 : 新 的 病原 体 已 经 确定 ， 治 
疗 方法 立刻 就 被 发 现 ， 你 的 免疫 系统 从 网 上 将 它 下 载 下 来 。 健 康 问 题 变 
成 矛盾 修饰 法 。 然 后 DNA 设 计 会 让 人 们 最 后 拥有 他 们 想 要 的 身体 ， 迎 来 
买 得 起 的 美丽 时 代 ， 威 说 吉布森 说 了 上 述 让 人 记忆 深刻 的 话 。 然 后 接 
大 “技术 人 ”会 进化 成 无 数 不 同 的 智能 物种 ， 每 种 物种 都 有 其 生态 位 ， 这 
征 一 个 全 新 的 与 当今 不 一 样 的 生物 圈 ， 正 如 当今 的 生物 疾 与 原始 海洋 存 
在 差异 一 样 。 


许多 人 担心 以 人 为 导 回 的 进化 会 永久 性 地 将 人 类 分 为 基因 拥有 者 的 
一 个 类 别 ， 以 及 基因 缺失 者 的 一 个 类 别 。 这 次 想象 的 异常 失败 打击 了 
我 。 目 然 进 化 最 后 不 会 只 有 两 种 物种 ， 一 种 物种 顺从 为 一 种 物种 。 这 束 
意味 着 下 一 个 瓶颈 就 是 界限 ， 虽 然 现在 我 们 还 没 看 到 它 。 其 他 过 湾 期 会 
到 来 ， 有 些 长 ， 有 些 短 ， 有 些 快 ， 有 些 不 会 持续 很 长 ， 但 在 地 球 的 生命 
历程 中 ， 接 下 来 的 几 干 年 很 有 可 能 是 最 为 令 人 惊叹 的 一 段 历 程 。 


1. 《日 内 瓦 公约 》 是 1864 一 1949 年 在 瑞士 日 内 瓦 缔结 的 关于 保护 平民 和 战争 受难 者 的 
一 系列 国际 公约 的 总 称 ， 含 四 个 公约 。 这 里 提 到 的 《日 内 瓦 第 五 公约 》 是 作者 对 未 来 的 
一 种 设想 。 编者 注 


后 让 


现在 你 已 了 解 了 机 器 学 习 的 秘密 。 将 数据 变 为 知识 的 机 器 不 再 是 一 
个 黑匣子 : 你 知道 魔法 是 如 何 及 生 的 ， 以 及 它 能 做 什么 、 不 能 做 什么 。 
你 已 经 遇 到 复杂 性 怪兽 、 过 拟 合 难题 、 维 数 灾难 、 探 索 与 开发 困境 。 你 
大 体 上 知道 了 谷歌 、 脸 书 、 亚 马 逊 和 所 有 其 他 网 站 把 你 每 天 慷慨 提供 给 
它们 的 数据 用 来 做 了 什么 ， 它 们 为 什么 能 帮 你 找到 东西 、 过 小 垃圾 ， 且 
不 断 改 善 它 们 的 服务 。 你 已 经 看 到 ， 在 世界 机 咒 学 习 研 究 实 验 室 里 正 酝 
酿 什 么 ， 你 可 以 劳 观 他 们 正在 创造 的 未 来 。 你 已 经 看 到 机 器 学 习 的 五 大 
学 派 以 及 它们 的 主 算 法 : 符号 学 派 和 逆 问 泪 绎 ， 联 结 学 派 和 逆 问 传播 ， 
进化 学 派 和 遗传 算法 ， 贝 叶 斯 学 派 和 概率 推理 ， 类 推 学派 和 支持 向量 
机 。 因 为 你 已 经 遇 历 广阔 的 区 域 ， 协 调 跨 越 边 境 ， 疏 到 顶峰 ， 和 很 多 机 
需 学 习 算法 相 比 ， 你 能 更 好 地 欣 质 风景 ， 而 那些 学 习 算 法 只 能 在 其 领域 
中 每 日 艰 否 工作。 你 可 以 看 到 共同 主题 流 消 在 这 卢 土 地 上 ， 就 像 一 条 地 
下 河流 ， 并 且 你 还 明白 ， 这 五 种 学 习 算 法 ， 表 面 上 看 差别 很 大 ， 其 实 也 
只 是 单一 通用 学 习 算 法 的 五 个 方面 。 


旅程 还 远 远 没有 结束 。 我 们 还 没有 终极 算法 ， 只 是 和 营 到 它 可 能 长 什 
么 样 。 如 果 某 些 基本 的 东西 还 找 不 到 ， 有 些 东西 沉浸 在 其 历史 当中 ， 而 
我 们 在 本 领域 中 无 法 看 到 ， 那 会 怎么 样 呢 ? 我 们 需要 一 些 与 之 前 想法 不 
一 样 的 新 想法 。 这 就 是 我 写本 书 的 原因 一 一 让 你 开始 思考 。 我 在 华盛顿 
大 学 关于 机 器 学 习 的 夜校 教 课 。2007 年 ， 网 飞 大 奖 宣布 后 不 入， 我 提议 
将 其 作为 班级 项 目 中 的 一 个 。 我 班 上 的 一 位 学 生 一 一 杰 夫 : 霍 伯 特 被 它 
迷 住 了 ， 并 在 课程 结束 时 继续 钻研 这 个 项 目 。 在 他 第 一 次 了 解 机 器 学 习 
的 两 年 之 后 ， 他 最 终 成 为 获胜 组 的 成 员 ， 当 时 总 共有 两 个 获胜 组 。 现 在 
轮 到 你 了 。 你 可 以 从 UCI 数 据 库 上 下 载 一 些 数据 集 
Carchive.ics.uci.eduml/) 并 开始 这 场 比赛 。 当 你 做 好 准备 时 ， 可 以 对 


Kaggle.com 进 行 了 解 ， 这 是 一 个 专门 组 织 管理 机 器 学 习 比 赛 的 网 站 ， 然 
后 挑 一 两 个 链接 并 点击 进入 。 当 然 ， 如 果 你 招 驭 一 两 个 朋友 来 和 你 一 起 
工作 ， 那 样 会 更 好 玩 。 如 果 你 也 着 迷 了 ， 束 像 杰 夫 那样 ， 最 后 变 成 一 个 
专业 的 数据 科学 家 ， 那 么 欢迎 进入 世界 上 最 让 人 陶醉 的 领域 。 如 果 你 发 
现 目 己 不 满意 于 当前 的 学 习 算法 ， 那 就 友 明 新 的 算法 一 一 或 者 只 是 出 于 
好 玩 而 发 明 。 我 最 笑 切 的 希望 束 是 ， 你 对 这 本 书 的 反应 ， 就 像 我 对 读 的 
第 一 本 人 工 智能 书 的 反应 一 样 ， 这 已 经 过 去 20 多 年 : 这 个 领域 有 太 多 的 
事情 要 做 ， 我 不 知道 从 何 开始 。 如 果 有 一 天 你 发 明了 终极 算法 ， 请 不 要 
带 着 它 跑 到 专利 局 ， 而 是 开放 资源 。 终 极 算 法 应 被 任何 人 或 者 组 织 拥 

有 ， 这 一 点 太 重 要 了 。 它 应 用 的 速度 会 比 你 为 它 申请 许可 的 速度 要 快 。 
但 如 果 你 打算 创业 ， 记 得 让 每 个 世界 上 的 男人 、 女 人 、 孩 子 部 能 享受 


无 论 是 出 于 好 奇 ， 还 是 专业 兴趣 ， 你 读 了 这 本 书 ， 我 希望 和 你 的 朋 
友 、 同 事 分 吾 你 学 到 了 什么 。 机 需 学 习 接触 到 我 们 每 个 人 的 生活 ， 而 我 
们 想 用 它 来 做 什么 也 由 目 己 决定 。 带 着 你 对 机 需 学 习 的 新 了 解 ， 你 现在 
处 于 更 好 的 位 置 来 思考 诸如 隐私 、 数 据 分 享 、 工 作 的 未 来 、 机 器 人 之 间 
的 战争 、 人 工 智 能 的 承诺 与 危险 之 类 的 问题 ， 而 且 了 解 到 这 一 点 的 人 越 
多 ， 我 们 越 有 可 能 避 锡 圈套 ， 并 找到 正确 的 路 。 这 也 是 我 写本 书 为 外 一 
个 主要 原因 。 统 计 学 家 知道 做 预测 不 容易 ， 尤 其 是 对 未 来 的 预测 ， 而 计 
算 机 科学 家 知道 预测 未 来 的 最 佳 方法 就 是 创造 未 来 ， 但 未 经 检验 的 未 来 
不 值得 创造 。 


感谢 你 让 我 做 你 的 同 导 。 我 想 送 给 你 一 份 临 别 礼物 。 牛 顿 说 过 ， 他 
就 像 一 个 在 沙滩 上 玩 机 的 男孩 ， 这 边 捡 一 枚 鹅卵石 ， 那 边 控 一 块 贝 序 ， 
而 真理 的 大 海 就 在 他 面前 ， 等 着 他 去 发 现 。300 年 后 ， 我 们 已 经 收集 了 
一 些 了 不 得 的 鹅卵石 和 贝 腕 ,但 大 片 未 被 友 现 的 海洋 仍然 延伸 至 远 处 ， 
闪烁 着 希望 的 光辉 。 我 的 礼物 融 是 一 笨 般 一 一 机 需 学 习 。 现 在 该 是 时 候 
扬帆 起 航 了 ! 


致谢 


首先 ， 我 要 感谢 在 科学 探险 历程 中 的 同伴 : 我 的 学 生 、 人 合作 人 、 同 
事 以 及 在 机 需 学 习 领 域 的 每 个 人 。 这 是 你 的 书 ， 也 是 我 的 书 。 我 希望 你 
能 原谅 我 过 于 简化 以 及 删改 的 处 理 ， 以 及 本 书 有 些 部 分 稀奇 古怪 的 写作 
方式 。 


我 对 在 不 同 阶段 阅读 并 评价 本 书 初稿 的 所 有 人 表示 感谢 ， 包 括 迈 区 
:贝尔 菲 奥 尼 、 和 名 亚 蕊 :多 明 戈 斯 、 奥 伦 . 埃 齐 奥 尼 、 亚 伯 : 弗 里 和 森 、 罗 勒 . 
金 斯 、 阿 龙 : 哈 勒 维 、 大 卫 : 伊 斯 雷 尔 : 考 茨 、 克 洛 伊 : 基 顿 、 加 里 : 马 库 
斯 、 雷 . 移 尼 、 凯 文 ' 墨 菲 、 弗 兰 齐 . 勒 斯 纳 、 本 . 塔 斯 卡 。 同 时 也 感谢 那 
些 给 予 我 建议 、 人 信息， 或 者 各 种 帮助 的 人 ， 包 括 汤 姆 . 格 里 菲 斯 、 大 卫 . 
赫 克 曼 、 汉 娜 : 希 基 、 艾 伯 特 - 拉 斯 洛 : 巴 拉巴 希 、 燕 乐趣 、 芭 芭 拉 : 琼 
斯 、 迈 克 : 摩 根 、 彼 得 :诺尔 维 格 、 朱 过 亚 : 珀 尔 、 格 雷 戈 里 : 皮 亚 特 斯 基 - 
萨 比 罗 、 塞 巴 斯 带 安 : 承 。 


我 很 垃 运 能 在 一 个 非常 独特 的 地 方 工 作 ， 也 就 是 华盛顿 大 学 的 计算 
机 科学 与 工程 系 。 我 还 要 感谢 乔 什 : 特 伦 鲍 姆 ， 还 有 他 团队 里 的 每 个 
人 人， 因为 他 们 在 有 蚊 省 理工 学 院 组 织 轮休 假 ， 在 此 期 间 我 才 开 始 了 本 书 的 
写作 。 多 亏 了 吉姆 . 莱 文 ， 我 不 知 疲倦 的 代理 人 ， 因 为 他 “ 邱 进 陷 
阱 ”〈 他 是 这 么 说 的 ) 并 把 消息 传 出 去 。 还 要 感谢 拉 文 :格林 伯 格 :罗斯 坦 
的 每 个 人 。 谢 谢 K: 丁 凯 茉 灰 ， 我 能 干 的 编辑 ， 帮 助 我 把 这 本 书 变 得 更 好 
(一 章 又 一 章 、 一 行 又 一 行 ) 。 我 要 感谢 Bosic Books 的 每 个 人 。 


我 还 要 感谢 那些 过 去 这 么 多 年 资助 过 我 的 研究 组 织 ， 包 括 阿波 罗斯 
塔 尔 公 司 (ARO) 、DAPRA、FCT、 美 国 科 学 基金 会 、 福 特 、 人 谷歌、 
IBM、 柯 达 、 雅 虎 、 斯 隆基 金 会 。 


最 后 ， 我 要 感谢 家 人 的 爱 与 文 持 。 


延伸 阅读 


为 了 让 广大 读者 更 深入 地 探索 机 器 学 习 世 界 ， 我 们 特此 附 上 延伸 阅 
读 部 分 。 此 部 分 包含 大 量 文献 ， 对 该 者 深入 学 习 大 有 神 蔓 。 同 时 ， 为 了 
保证 准确 性 ， 我 们 保持 了 此 部 分 中 涉及 的 人 名 、 文 献 、 出 版 信息 等 内 容 
的 原貌 ， 以 给 读者 。 和 希望 读者 朋友 能 通过 本 书 和 这 些 文献 进入 丰富 多 彩 
的 机 器 学 习 世 界 。 


如 果 本 书 激发 了 你 对 机 器 学 习 及 其 相关 问题 的 兴趣 ， 那 么 在 本 部 分 
你 会 找到 许多 建议 。 本 书 的 目的 不 是 面面俱到 ， 而 是 为 了 引导 人 们 了 解 
与 机 器 学 习 相 关 的 知识 《〈 正 如 Borges 说 的 那样 ) 。 我 尽量 为 读者 选择 合 
适 的 书籍 和 文章 。 专 业 类 出 版 物 的 阅读 至 少 需要 一 些 计算 、 统 计 或 者 数 
学 领域 的 背景 知识 ， 我 们 会 以 星 号 〈*) 来 标记 这 些 出 版 物 。 即 使 这 些 
是 专业 出 版 物 ， 对 读者 来 说 也 可 以 接受 很 大 一 部 分 。 我 没有 把 卷 号 、 期 
刊 号 、 页 码 列 出 来 ， 因 为 网 站 使 这 些 变 得 多 余 ， 对 于 出 版 商 的 地 址 来 说 
也 同样 如 此 。 


如 果 你 想 从 整体 上 对 机 器 学 习 了 解 更 多 ， 网 络 课程 就 是 开始 学 习 的 

好 选择 。 并 非 巧合 ， 与 本 书 内 容 最 为 相近 的 就 是 我 教 的 这 门 课 

(Www.coursera.org/course/machinelearning) 。 也 可 以 参考 安德鲁 . 因 格 
的 课程 (www.coursera.org/course/ml) 和 亚 瑟 . 阿 布 : 穆 斯 塔 法 的 课程 

Chttp:/work.caltech.edu/telecourse.html) 。 接 下 来 就 要 阅读 教材 。 和 本 
书 最 相近 且 最 容易 接受 的 一 本 教材 就 是 Tom Mitchell 的 Machine 
Learning* (McGraw-Hill， 1997) 。 更 现代 且 更 精确 的 教材 包括 Kevin 
Murphy 的 Machine Learning: A Probabilistic Perspective( 麻 省 理工 出 版 
社 ，2012) ， Chris Bishop 的 Pattern Recognition and Machine 
Learning* (Springer, 2006) ， 以 及 An Introduction to Statistical Learning 


withn Application in R*〈 作 者 是 Gareth James、Daniela Witten、Trevor 
Hastie、Rob Tibshirani，Springer, 2013)。 我 的 文章 “A few useful things to 
know about machine learning” (Communications of the ACM, 2012 ) 总结 
了 一 些 关 于 机 器 学 习 的 传统 知识 ， 这 些 知 识 在 教材 中 往往 较为 隐 上 星 ， 且 
可 作为 开始 阅读 本 书 之 前 的 参考 资料 。 如 果 你 懂得 如 何 编程 ， 并 想 尝 试 
机 器 学 习 ， 可 以 从 众多 开源 软件 包 开 始 ， 例 如 ， 
Weka (www.cs.waikato.ac.nz/ml/weka) 。 有 两 本 重要 的 机 器 学 习 杂 志 
《Machine Learning》 和 《Journal of Machine Learning Research》 。 本 
举办 的 机 器 学 习 的 重要 会 议 包 括 机 器 学 习 国 际会 议 (International 
Conference on Machine Learning〉、 国 际 神经 信息 处 理 大 会 (Conference 
on Neural Information Processing Systems) 、 国 际 学 术 和 技术 开发 研讨 会 
(International Conference on Knowledge Discovery and Data Mining) 。 
在 http://videolectures.net 上 有 众多 关于 机 器 学 习 的 访谈 。 网 站 
www.KDnuggets.com 是 机 器 学 习 的 一 站 式 服务 店 ， 你 可 以 注册 账号 ， 获 
得 实时 通信 ， 了 解 最 新 发 展 动态 。 


序 


早 前 列举 的 机 器 学 习 对 日 常生 活 的 影响 可 在 George John (SIGKDD 
Explorations，1999) 所 车 的 “Behind-the-scenes data mining” 中 找到 ， 序 
言 部 分 “日 党 生活” 段落 的 灵感 也 源 于 此 。Eric Siegel 的 书 Predictive 
Analytics (Wiley，2013) 探索 了 众多 机 器 学 习 的 应 用 。 委 肯 锡 全 球 研究 
所 2011 年 的 报告 Big Data: The Next Frontier for Innovation, Competition, 
and ”Productivity 对 “大 数据 ”这 一 术语 进行 了 推广 。 在 该 报告 中 ，Viktor 
Mayer-Schonberger 和 Kenneth Cukier 所 著 的 Big Data: A Revolution That 
Will Change How We Live, Work, and Think (Houghton Mifflin Harcourt, 
2013) 一 文 ， 讨论 了 许多 由 大 数据 引发 的 问题 。 我 了 解 人 工 乔 能 的 教材 
是 Elaine Rich 所 闭 的 Artificial Intelligenc* (McGraw-Hill，1983) 。 现 在 


通用 的 版 本 是 Stuart Russel 和 Peter Norvig 所 著 的 Artificial Intelligence: A 
Modern Approac (3rd., Prentice Hall, 2010) 。Nils Nilsson 的 The Quest for 
Artificial Intelligence (Cambridge University Press，2010) 介绍 了 早期 的 
人 工 智能 。 


东 、 旱 


John “MacCormick 写 的 Nine Algorithms That Changed the 
Future (Princeton University Press, 2012 ) 一 书 介绍 了 在 计算 机 科学 中 一 
些 最 重要 的 算法 ， 其 中 有 一 章 是 关于 机 器 学 习 的 。Sanjoy “Dasgupta、 
Christos Papadimitriou 和 和 Umesh Vazirani 写 的 Algotithms* (McGraw-Hill, 
2008) 一 书 是 介绍 该 主题 的 简明 教材 。Danny Hillis 写 的 The Pattern on 
the Stone (Basic Books, 1998) 解释 了 计算 机 如 何 运 转 。Walter Isaacson 
在 The Innovators (Simon & Schuster, 2014) 一 书 中 生动 描述 了 计算 机 科 
Ss 


SumitGulwani、William Harris 和 Rishabh Singh 写 的 “Spreadsheet data 
manipulation Using examples” (Communications of the ACM, 2012) 一 文 
就 是 一 个 例子 ， 体 现 了 计算 机 如 何 通 过 观察 用 户 来 进行 自我 编程 。Tom 
Davenport 和 Jeanne Harris 的 Competing on Analytics (HBS Press, 2007) 一 
书 介 绍 了 在 商务 领域 如 何 使 用 预测 分 析 。Steven Levy 在 In the 
Plex (Simon & Schuster, 2011) 一 书 中 高 水 平地 介绍 了 谷歌 技术 如 何 起 
作用 。Carl Shapiro 和 Hal Varian 在 Information Rules (HBS Press, 1999) 
一 书 中 解释 了 网 络 的 影响 。Chris Anderso 在 The Long Tail (Hyperion, 
2016) 一 书 中 介绍 了 长 尾 现象 。 


由 Tony Hey、Stewart Tansley、Kristin Tolle 主 编 的 The Fourth 
Paradigm (Microsoft Research，2009) 一 书 探索 了 通过 数据 密集 型 运算 
来 实现 科学 转型 。James Evans 和 Andrey Rzhetsky 在 “Machine 


Science”(Science, 2010) 一 文中 讨论 了 一 些 计 算 机 做 出 科学 发 现 的 不 同 
方法 。Pat ”Langley 等 人 写 的 Scientific Discovery: Computational 
Explorations of the Creative Processes* (MIT Press, 1987) 一 书 介 绍 了 自 
动 发 现 科 学 规律 的 一 系列 方法 。Usama Fayyad、George Djorgovski 和 和 
Nicholas Weir 在 “From Digitized Images to Online Catalogs” (AI 
Magazine，1996) 一 文中 介绍 了 SKICAT 项 目 。Niki Wale 的 Machine 
Learning in Drug Discovery and Development (Drug Development 
Research，2001) 一 文正 好 对 这 个 问题 进行 了 概述 。Ross King 等 人 写 的 
The Automation of Science (Science，2009) 一 文 介 绍 了 机 器 人 科学 家 
Adam。 


Sashalssenberg 的 The Victory Labp (Broadway Books, 2012) 一 书 仔细 
分 析 了 在 政治 领域 中 数据 分 析 的 用 途 ， 他 的 How President Obama’s 
Campaign Used Big Data to Rally Individual Votes (MIT Technology 
Review，2013) 一 文告 诉 读者 迄今 为 上 数据 分 析 的 最 大 功绩 。Nate 
Silver 的 The Signal and the Noise (Penguin Press, 2012) 一 书 中 的 一 章 介 
绍 了 他 集中 民意 的 方法 。 


P. W. Singer 的 Wired for War (Penguin, 2009) 一 书 主要 介绍 了 机 器 
人 战争 。Richard Clarke 和 Robert Knake 的 Cyber War (Ecco, 2012) 一 书 
融 啊 了 互联 网 战争 的 党 钟 。 我 将 机 器 学 习 与 博 列 论 结合 打败 对 手 ， 这 个 
观点 开始 是 以 课题 的 形式 呈现 ， 后 来 在 Nilesh ”Dalvi 等 人 的 Adversarial 
Classification* (Proceedings of the Tenth International Conference on 
Knowledge Discovery and Data Mining，2004) 上 进行 了 介绍 。Walter 
Perry 等 人 的 Predictive Policing (Rand，2013) 引导 人 们 如 何在 警察 工作 
中 使 用 解析 学 。 


Laurie von Melchner、Sarah Pallas 和 Mriganka Sur 的 Visual Behaviour 
Mediated by Retinal Projections Directed to the Auditory Pathway (Nature, 
2000) 一 文 介绍 了 雪 狠 大脑 重 新 布线 的 实验 。Joanna Moorhead 的 Seeing 
with Sound (Guardian, 2007) 和 www.benunderwood.com 这 个 网 站 介绍 了 
Ben Underwood 的 故事 。Otto Creutzfeldt 在 Generality of the Functional 
Structure of the Neocortex (Naturwissenschaften, 1977) 一 文中 表明 皮质 
是 一 种 算法 。Vernon Mountcastle 在 “An Organizing Principle for Cerebral 
Function: The Unit Model and the Distributed System” 一 文中 也 做 了 同样 的 
曾 述 ， 这 篇 文章 收录 在 Gerald Edelman 和 Vernon Mountcastle 编 辑 的 The 
Mindful Brain (MIT Press, 1978) 一 书 中 。Gary Marcus、Adam 
Marblestone 和 Tom Dean 在 The Atoms of Neural Computation (Science, 
2014) 中 提出 反对 意见 。 


Alon Halevy、Peter Norvig 和 Fernando Pereira 在 The Unreasonable 
Effectiveness of Data (IEEE Intelligent Systems, 2009) 中 赞成 机 器 学 习 是 
新 的 发 现 范 式 。Benoit Mandelbrot 在 同名 书 (Freeman，1982) 中 探索 大 
目 然 中 的 分 形 几何 。James Gleick 的 Chaos (Viking, 1987) 一 书 讨 论 并 摘 
述 了 受 德 布 洛 特集 合 。Edward Frenkel 的 ove and Math (Basic Books, 
2014) 一 书 介绍 了 上 明 兰 效 纲领 ， 这 是 一 个 近 试 将 数学 的 不 同 子 域 联合 起 
来 的 研究 。Lance Fortnow 的 The Golden Ticket (Princeton University 
Press,2013) 一 书 介 绍 的 是 NP 完全 问题 和 P=NP 问 题 。Charles ”Petzold 的 
The Annotated Turing (Wiley，2008) 通过 重新 研究 图 灵 最 初 关 于 图 灵 

机 器 的 论文 来 对 图 灵机 器 进行 解释 。 


Douglas Lenat 等 人 著 的 “Cyc: Toward programs with common sense” 
* (Communication of the ACM，1990) 一 文 就 介绍 了 Cyc 项 目 。Peter 
Norvi 在 “On Chomsky and the Two Cultures of Statistical 
Learning” (http://norvig.com/chomsky.html) 一 文中 讨论 Noam Chomsky 
对 于 数字 学 习 的 批评 。Jerry Fodor 的 The Modularity of Mind (MIT Press, 
1983) 一 书 总 结 了 他 关于 大 脑 如 何 运转 的 观点 。Leon Wieseltier 的 “What 


Big Data will Never Explain” (New Republic, 2013) 和 Andrew McAfee 
的 “Pundits， Stop Sounding Ignorant about Data” (Harvard Business 
Review,2013) 中 揭示 了 围绕 大 数据 能 做 和 不 能 做 之 间 的 矛盾 。Daniel 
Kahneman 在 Thinking, Fast and Slow (Farrar, Straus and Giroux, 2011) 一 
书 的 第 21 章 解释 了 算法 为 什么 可 以 打败 感官 直觉 。David Patterson 
在 “Computer Scientists May Have What it Takes to Help Cure 
Cancer” (New York Times，2011) 一 文中 证 明了 计算 与 数据 在 与 癌症 的 
斗争 中 所 起 的 作用 。 


更 多 学 派 关 于 如 何 获得 主 算法 的 观点 在 以 下 相应 部 分 中 会 提 到 。 


生生 一 


第 二 时 


休 席 的 归纳 法 经 典 公式 出 现在 A Treatise of Human Nature (1739) 
的 I 卷 中 。 因 为 “The Lack of a Priori distinctions between Learning 
Algorithms”(Neural Computation， 1996) 一 文中 的 归纳 推理 ，David 
Wolpert 得 出 了 “天 下 没有 和 免费 的 午餐 ”定理 。 我 在 “Toward Knowledge- 
Rich Data MJining” (Data Mining and Knowledge Discovery, 2007) 一 文 
中 讨论 先 验 知识 在 机 器 学 习 中 的 重要 性 ， 并 在 “The role of Occam’s razor 
in knowledge discovery” (Data Mining and Knowledge Discovery, 1999) 
一 文中 讨论 了 对 奥 卡 姆 刹 思 理论 的 误 读 。 在 Nate Silver 的 The Signal and 
the Noise (Penguin Press, 2012) 一 书 中 ， 过 拟 合 是 其 重要 主题 之 一 ， 他 
称 之 为 “你 绝对 没有 听 过 的 最 重要 的 科学 问题 ”。John Ioannidis 的 “Why 
most published research findings are false”* (PLoS Medicine, 2005) 一 书 
讨论 了 在 科学 领域 中 ， 将 巧合 发 现 误 以 为 是 真 发 现 的 问题 。 

在 “Controlling the false rate: A _ practical and powerful approach to multiple 
testing”* (Journal of the Royal Statistical Society, Series B, 1995) 一 文 
中 ，Yoav Benjamini 和 Yosef Hochberg 提 出 了 反对 该 观点 的 方法 。 在 
Stuart Geman、 Elie Bienenstock 和 Renk Doursat 的 “Neural networks and the 


bias/variance dilemma” (Neural Computation，1992) 一 文中 展示 了 方差 
分 解 的 过 程 。Pat Langley 的 “Machine learning as an experimental 
science”(Machine Learning，1998) 一 文 讨论 了 机 器 学 习 中 实验 法 的 作 
用 。 


William Stanley Jevons 在 The Principles of Science (1874) 一 书 中 首 
次 提出 了 将 归纳 法 视 作 演 绎 法 的 反 同 。Steve Muggleton 和 和 Wray Buntine 
的 “Machine learning of first-order predicates by inverting 
resolution”* (Proceedings of the Fifth International Conference on Machine 
Learning, 1988) 一 文 首 先 提出 在 机 器 学 习 中 使 用 逆 演 绎 。Saso Dzeroski 
和 Nana Lavrac 主 编 的 书 Relational Data Mining* (Springer, 2001) 介绍 了 
归纳 逻辑 编程 这 个 领域 ， 这 个 领域 研究 的 是 逆 演 绎 。Peter Clark 和 Tim 
Niblett 在 “The CN2 Induction Algorithm”* (Machine Learning, 1989) 一 
文中 总 结 了 主要 的 米 夏 莱克 样式 规则 归纳 算法 。Rakesh Agrawal 和 


Ramakrishnan Srikant 的 “Fast algorithms for mining association 


rules”* (Proceedings of the Twentieth International Conference on Very 
Large Databases， 1994) 一 文 介绍 了 零售 商 使 用 的 挖掘 规则 的 方法 。 

Ashwin Srinivasan、Ross King、Stephen Muggleton 和 Michael Sternberg 
的 “Carcinogenesis predictions using inductive logic 
programming” (Intelligent Data Analysis in Medicine and Pharmacology, 


1997) 一 文 介绍 了 规则 归纳 法 用 于 预测 癌症 的 例子 。 


J. Ross Quinlan 的 C4.5: Programs for Machine Learning* (Morgan 
Kaufmann, 1992) ， 以 及 Leo Breiman、Jerome Friedman、Richard Olshen 
和 Charles StoneHJClassification and Regression Trees* (Chapman and 
Hall, 1984) 两 本 书 提出 了 两 大 主要 的 决策 树 学 习 算 法 。Jamie Shotton 等 
人 的 “Real-time human pose recognition in parts from single depth 
images”* (Communications of the ACM, 2013) 一 文 解释 了 微软 的 Kinect 
如 何 利用 决策 树 来 追踪 玩家 的 动作 。Andrew Martin 等 人 写 的 “Competing 
approaches to predicting Supreme Court decision making” (Perspective on 


Politics， 2004) 一 文 介 绍 了 决策 树 在 预测 最 高 法 院 投票 中 如 何 打败 法 律 
专家 ， 并 展示 了 大 法 官 桑 德 拉 : 戴 : 奥 康 纳 的 决策 树 。 


Allen Newell 和 Herbert Simon 在 “Computer science as empirical 
enquiry: Symbols and search” (Communications of the ACM, 1976) 一 文中 
提出 假设 ， 认 为 所 有 智能 都 是 符号 操纵 。David Marr 
在 Vision* (Freeman， 1982) 一 书 中 提出 信息 处 理 的 三 个 层面 。Ryszard 
Michalski、Jaime Carbonell 和 Tom Mitchell 主 编 的 Machine Learning: An 
Artificial Intelligence Approach* (Tioga, 1983) 一 书简 单 介绍 了 机 器 学 习 
中 象征 主义 研究 的 早期 成 果 。Paul Smolensky 的 “Connectionist AJ], 
symbolic AL and the brain”* (Artificial Intelligence Revie, 1987) 一 文 对 符 
号 论 模型 提出 了 联结 主义 的 观点 。 


第 四 章 


Sebastian Seung 的 Connectome (Houghton Mifflin Harcourt, 2012) 一 
书 对 神经 科学 、 神 经 联结 组 学 、 对 大 脑 进行 逆 回 工程 的 严峻 挑战 做 了 浅 
显 易 懂 的 介绍 。David ”Rumelhart、James ”McClelland 主 编 的 Parallel 
Distributed Processing* (MIT Press，1986) 一 书 是 20 世 纪 80 年 代 处 于 繁 
盛 时 期 的 联结 主义 的 “圣经 >。James Anderson 和 Edward Rosenfeld 编 辑 的 
Neurocomputing* (MIT Press, 1988) 一 书 整 理 了 许多 篇 经 典 的 联结 主义 
论文 ， 包括: McCulloch 和 Pitts 的 第 一 批 神经 模型 ，Hebb 的 Hebb 规 则 ; 
Rosenblatt 的 感知 机 ; Hopfield 的 Hopfield 网 络 ，Ackley、Hinton 和 和 
Sejnowski 的 玻 尔 兹 曼 机 ;Sejnowski 和 Rosenberg 的 NETtalk:; 
Rumelhart、Hintonation 和 Williams 的 反 向 传播 。Yann LeCun、 Léon 
Bottou、 Genevieve Orr 和 Klaus-Robert Miiller 的 “Efficient backdrop”* 一 文 
由 Genevieve Or 和 Klaus-Robert Miiller 收 录 到 Neural Networks: Tricks of 
the Trade (Springer, 1998) 一 书 中 ， 提 出 了 一 些 使 反 回 传播 起 作用 的 重 
要 技巧 。 


Robert Trippi 和 Efraim Turban 编 辑 的 Neural Networks in Finance and 
Investing* (McGraw-Hill， 1992) 收录 了 关于 神经 网 络 在 金融 领域 应 用 
的 文章 。Todd Jochem 和 Dean Pomerleau 的 “Life in the fast lane: The 
evolution of an adaptive Vehicle control system” (AT Magazine, 1996) 一 文 
介绍 了 ALVINN 无 人 驾驶 汽车 工程 。Paul] Werbos 的 博士 论文 是 Beyond 
Regression: New Tools for Prediction and Analysis in the Behavioral 
Science* (Harvard University, 1974) 。 Arthur Bryson 和 Yu-Chi Ho 
在 Applied Optimal Control* (Blaisdell，1969) 一 书 中 介绍 了 他 们 反 向 传 
播 的 早期 版 本 。 


Yoshua Bengio 的 Learning Deep Architectures for AT* (Now, 2009) 

一 书简 要 介绍 了 深度 学 习 。Yoshua Bengio、Patrice Simard 和 Paolo 
Frasconi 的 “Learning long-term dependencies with gradient descent is 
difficult” (IEEE Transactions on Neural Networks, 1994) 一 文 介绍 了 反问 
传播 中 的 信号 误差 扩散 问题 。John Markoff 的 “How many computers to 
identify a cat?16,000”(New York Times, 2012) 一 书 对 谷歌 的 脑 计划 及 
其 结果 进行 汇报 。Yann LeCun、Léon Bottou、Yoshua Bengio 和 Patrick 
Haffner 的 “Gradient-based learning applied to document 
recognition”* (Proceedings of the IEEE，1998) 一 书 介 绍 了 卷 积 神经 网 
络 、 当 前 深度 学 习 冠 军 。Jonathon Keats 的 “The $1.3B quest to build a 
supercomputer replica of a human brain”(Wired, 2013) 介绍 了 欧盟 的 大 
脑 模 仿 项 目 。Thomas Insel、Story Landis 和 Francis _ Collins 的 “The NIH 
BRAIN Initiative”(Science, 2013) 一 文 介绍 了 BRAIN 计 划 。 


Steven Pinker 在 How the Mind Works (Norton, 1997) 一 书 的 第 二 章 
中 总 结 了 符号 学 者 对 联结 主义 模型 的 批判 。Seymour Paper 在 “One AT or 
Many?”(Daedalus， ”1988) 一 文中 争论 性 地 发 表 了 自己 的 看 法 。Gary 
Marcus 的 The Birth of the Mind (Basic Books, 2004) 一 书 中 解释 了 进化 
如 何 促成 人 类 大 脑 复杂 的 功能 。 


第 五 草 


Josh Bongard 的 “Evolutionary robotics” (Communication of the ACM, 
2013) 一 文 讨论 了 Hod Lipson 以 及 其 他 人 关于 进化 机 右 人 的 作品 。 
Steven Levy 的 Artificial Lif (Vintage，1993) 一 书 也 游览 了 一 遍 数字 化 这 
个 “动物 园 *， 从 虚拟 世界 中 计算 机 创造 的 动物 到 遗传 算法 。Mitch 
Waldrop 的 Complexity (Touchstone, 1992) 一 书 第 五 章 讲述 了 John 
Holland 的 故事 ， 以 及 遗传 算法 研究 前 几 十 年 的 情况 。David Goldberg 的 
Genetic Algorithms in Search, Optimization， and Machine 
Learning* (Addison-Wesley, 1989) 一 书 对 遗传 算法 进行 了 标准 介绍 。 


在 T. J. M.Schopf 主 编 的 Models in Paleobiology (Freeman, 1972) 一 
书 中 ，Niles Eldredge 和 Stephen Jay Gould 发 表 了 “Puntuatedequilibria: An 
alternative to phyletic gradualism” 一 文 ， 这 篇 文章 中 提出 了 他 们 的 间断 平 
衡 理 论 。Richard Dawkins 在 The Blind Watchmaker (Norton, 1986) 一 书 
的 第 九 章 批评 了 该 观点 。 在 Richard Sutton 和 Andrew Barto 的 
Reinforcement Learning* (MIT Press, 1998) 一 书 中 ， 第 二 章 讨论 了 探索 
一 利用 困境 。 在 Adaptation in Natural and Artificial System* (University 
of Michigan Press, 1975) 中 ，John Holland 提 出 了 自己 的 解决 方法 及 其 他 
观点 。 


John Koza 的 Genetic Programming* (MIT Press，1992) 一 书 是 对 该 
范式 的 重要 参考 。 在 Minoru Asada 和 Hiroaki Kitano 编 写 的 RoboCup-95: 
Robot Soccer World Cup 万 (Springer，1999) 一 书 中 ，David Andre 和 
Astro Teller 发 表 了 “Evolving team Darwin United”* 一 文 ， 这 篇 文章 中 介 
绍 了 进化 的 机 器 人 足球 队 。John Koza、Forrest Bennett III、David Andre 
和 Martin Keane 闭 的 Genetic Programming III* (Morgan Kaufmann, 
1999) 一 书包 含 许多 经 过 改进 的 电子 线路 。Danny Hillis 在 “Co-evolving 
parasites improve simulated evolution as an optimization 


procedure”* (Physica D， 1990) 一 文中 提出 寄生 虫 有 助 于 进化 。AD 


iLivnat、Christos Papadimitriou、Jonathan Dushoff 和 Marcus Feldman 在 “A 
mixability theory of the role of sex in evolution”* (Proceedings of the 
National Academy of Sciences, 2008) 一 文中 提出 ， 性 别 可 优化 可 混 性 。 
Kevin Lang 的 文章 “Hill climbing beats genetic search on a Boolean circuit 
synthesis problem of Koza’s”* (Proceedings of the Twelfth International 
Conference on Machine Learning，1995) 对 遗传 编程 和 疏 山 法 进行 了 比 
较 。Koza 对 此 的 回应 见 “A response to the ML-95 paper 
entitled...”* (unpublished; online at www.genetic— 
programming.com/jktahoe24page.html) 一 文 . 


在 “A new factor in evolution”(American Naturalist, 1896) 一 文中 ， 
James Baldwin 提 出 了 同名 反应 。Geoff Hinton 和 Steven Nowlan 在 “How 
learning can guide evolution”* (Complex Systems, 1987) 一 文中 介绍 了 它 
的 运用 。 鲍 德 温 效应 是 Peter Tusrney、Darrell Whitley 和 Russell Anderson 
主编 的 期 刊 Evolutionary Computation1996 年 的 一 个 特殊 问题 的 主题 。 


John Neville Keynes 的 The Scope and Method of Political 
Economy Macmillan， 1891) 一 书 区 分 了 摘 述 性 和 规范 性 理论 之 间 的 区 
列 。 


A Ns 
旨 八 有 蛙 


Sharon Bertsch McGrayne 在 The Theory That Would Not Die (Yale 
University Press， 2011) 一 书 中 对 贝 叶 斯 主义 进行 了 介绍 ， 从 Bayes 到 
Laplace 再 到 现在 。Peter Hoff 的 A First Course in Bayesian Statistical 
Methods* (Springer, 2009) 一 书 则 对 贝 叶 斯 统计 进行 了 介绍 。 


在 Richard Duda 和 Peter Hart (Wiley, 1973) 的 Pettern Classification 
and Scene Analys 评 一 书 中 ， 朴 系 贝 叶 斯 算法 被 首次 提 到 。 在 Essays in 


Positive Economics (University of Chicago Press, 1966) 一 书 中 ，Milton 
Friedman 发 表 了 目 己 对 过 简 理论 的 文 持 。 朴 素 贝 叶 斯 在 过 滤 垃 圾 邮件 中 
的 应 用 则 出 现在 Joshua Goodman、David Heckerman 和 Robert 
Rounthwaite 的 “Stopping spam” (Scientific America,， 2005) 一 文中 。 
Stephen Robertson 和 Karena Sparck Jones 的 “Relevance weighting of search 
terms”* (Journal of the American Society for Information Science, 1976) 


一 文 介绍 了 与 朴素 贝 叶 斯 相似 方法 在 信息 检索 中 的 应 用 。 


Brian Hayes 的 “First links in the Markov chain” (American Scientist, 
2013) 一 文 叙 述 了 马尔 可 夫 对 同名 链 的 创造 。Thorsten Brants 等 人 


的 “Large Language models in machine translation”* (Proceedings of the 


2007 Joint Conference on Empirical Methods in Natural Language 
Processing and Computational Natural Language Learning, 2007) 一 文 解 
释 了 谷歌 翻译 如 何 运 行 。Larry Page、Sergey Brin、Rajeev Motwani 和 
Terry Winograd 的 “The PageRank citation ranking: Bringing order to the 
Web”(Standford University technical report, 1998) 一 文 介绍 了 网 页 排序 
算法 及 其 在 网 页 上 游 动 的 说 明 。Eugene Charniak 的 Statistical Language 
Learning* (MIT Press, 1996) 一 书 揭示 了 隐藏 的 马尔 可 夫 模 型 的 工作 原 
理 。Fred Jelinek 的 Statistical Methods for Speech recognition (MIT Press, 
1997) 一 书 摘 述 了 这 些 方法 在 语音 识别 领域 的 应 用 。 在 David Forney 
的 “The Viterbi algorithm: A personal history” (unpublished; online at 
arxiv.org/pdf/cs/0504020v2.pdf) 一 文中 ， 介 绍 了 隐 马 尔 可 夫 模 型 式 的 推 
理 在 传播 中 的 情况 。Pierre Baldi 和 Sgren Brunak 的 Bioinformatics: The 
Machine Learning Approach* (2nd ed., MIT Press, 2001) 一 书 介绍 了 机 
器 学 习 在 生物 学 以 及 隐 马 尔 可 夫 模 型 中 的 应 用 。Barry Cipra 的 “Engineers 
look to Kalman filtering for guidance”(SIAM News, 1993) 对 卡尔 坚 滤 小 
法 及 其 历史 、 应 用 进行 了 简要 介绍 。 


Judea Pearl 关 于 贝 叶 斯 网 络 的 先锋 之 作出 现在 他 的 Probabilistic 
Reasoing in Intelligent Systems* (Morgan Kaufmann，1988) 一 书 中 。 


Eugene Charmiak 的 “Bayesian networks without tears”* (AT Magazine, 
1991) 一 文 很 大 程度 上 用 非 数学 的 方法 对 贝 叶 斯 网 络 进 行 了 介绍 。 
David Heckerman 的 “Probabilistic interpretation for MYCIN’s certainty 
factors”* (Proceedings of the Second Conference on Uncertainty in 
Artificial Intelligence, 1986) 一 文 解释 在 何 种 情况 下 ， 包 含 置信 和 度 估 计 的 
规则 集 是 贝 叶 斯 网 络 的 合理 假设 ， 在 什么 情况 下 不 是 。Eran ”Segal 等 人 
的 “Module networks: Identifying regulatory modules and their condition— 
Specific regulators from gene expression data” (Nature Genetics, 2003) 一 
文 束 是 贝 叶 斯 网 络 在 基因 调控 领域 的 一 个 应 用 。Ben Paynter 
的 “Microsoft virus fighter: Spam may be more difficult to sthp than 
HIV”(Fast Company, 2012) 一 文 讲述 David Heckerman 如 何 从 垃圾 邮件 
过 滤器 中 获取 灵感 ， 并 利用 贝 叶 斯 网 络 设 计 了 一 种 艾滋 病 疫 苗 。 概 率 性 
的 或 者 “喧哗 ?OR 在 Pearl 的 书籍 中 得 到 了 解释 。M.A.Shwe 等 人 

的 “Probabilistic diagnosis using a reformulation of the INTERNIST-1/QMR 
knowledge base" 一 文 为 医学 诊断 介绍 了 一 种 “喧哗 2?OR 贝 叶 斯 网 络 。 
Kevin Murphy 的 Machine Learning* (MIT Press，2012) 的 26.5.4 部 分 描 
述 了 谷歌 的 贝 叶 斯 网 络 在 广告 配置 方面 的 运用 。Ralf ”Herbrich、Tom 
Minka 和 Thore Graepel 的 “TrueSkillIM: A Bayesian skill rating 
system”* (Advances in Neural Information Processing Systems 19, 2007) 


一 文 介绍 了 微软 的 游戏 评分 系统 。 


Adnan “Darwiche 的 Modeling and Reasoning with Bayesian 
Networks* (Cambridge University Press, 2009) 一 书 解释 了 贝 叶 斯 网 络 中 
用 于 推理 的 主要 算法 。Jack Dongarra 和 Francis Sullivan 主 编 的 Computing 
in Science and Engineering 期 刊 的 2000 年 的 1~2 月 刊 包 含 了 和 21 世 纪 前 十 
位 算法 有 关 的 文章 ， 包 括 马 尔 可 夫 链 蒙特 卡 洛 。Sebastian ”Thrun 等 人 
的 “Stanley: The robot that won the DARPA Grand Challenge” (Journal of 
Field of Robotics， 2006) 解释 了 同名 无 人 驾驶 汽车 如 何 运 行 。David 
Heckerman 的 “Bayesian networks for data mining”* (Data Mining and 
Knowledge Discovery，1997) 一 文 总 结 了 用 于 学 习 的 贝 叶 斯 方法 ， 并 解 


释 如 何 从 数据 中 掌握 贝 叶 斯 网 络 。David MacKay 的 “Gaussian processes: 
A replacement for supervised neural networks?”* (NIPS tutorial notes, 
1997; online at www.inference.eng.cam.ac.uk/mackay/gp.pdf) 一 文大 致 摘 
述 了 贝 叶 斯 学 派 如 何 安 排 网 络 入 侵 防 火 墙 系统 。 


Dan Jurafsky 和 James Martin 的 Speech and Language 
Processing* (2nd ed.，Prentice Hall， 2009) 一 书 的 9.6 部 分 讨论 了 在 语音 
识别 中 对 词汇 概率 进行 加 权 的 必要 性 。 我 和 Mike Pazzani 关 于 朴素 贝 叶 


斯 的 论文 是 “On the optimality of the simple Bayesian classifier under zero— 


one loss”* (Machine Learning, 1997; expanded journal version of the 1996 
conference paper) 。 上 面 提 到 的 Judea Pearl 的 书 讨论 了 马尔 可 夫 网 络 和 
贝 叶 斯 网 络 。 计 算 机 视觉 中 的 马尔 可 夫 网 络 就 是 Adrew Blake、Pushmeet 
Kohli 和 Carsten Rother 主 编 的 Markov Random Fields for Vision and Image 
Processing* (MIT Press，2011) 这 本 书 的 主题 。John Lafferty、Andrew 
McCallum 和 Fernando Pereira 的 “Conditional random fields: Probabilistic 


models for segmenting and labeling sequence data”* (International 
Conference on Machine Learning, 2001) 一 文 介绍 了 可 将 条 件 释 然 性 最 大 
化 的 马尔 可 夫 网 络 。 


Jon Williamson 和 Dov Gabbay 主 编 的 Journal of Applied Logic2003 年 
的 一 期 特刊 探索 了 试图 将 概率 与 逻辑 结合 起 来 的 历史 。Michael 
Wellman、John Breese 和 Robert Goldman 的 “From Knowledge bases to 
decision models”* (Knowledge Engineering Review, 1992) 一 文 讨论 了 时 
期 一 些 解决 该 问题 的 智能 方法 。 


第 七 章 


Frank Abagnale 在 和 Stan Redding 一 起 创作 的 自传 Catch Me If You 
Can (Grosset& Dunlap，1980) 中 详细 描述 了 他 的 英勇 事迹 。Evelyn Fix 


和 Joe Hodges 最 初 天 于 最 近邻 算法 的 技术 报告 是 “Discriminatory analysis: 
Nonparametric discrimination: Consistency properties”* (USAF School of 
Aviation Medicine, 1951) 。Belur Dasarathy 主 编 的 Nearest Neighbor (NN) 
Norms* 收 录 了 许多 该 领域 中 的 重要 论文 。Chris Atkeson、Andrew Moore 
和 Stefan Schaal 的 “Locally weighted learning” (Artificial Intelligence 
Review, 1997) 一 文 探 索 了 局 部 线性 回归 。Paul Resnick 等 人 


的 “GroupLens: An open architecture for collaborative filtering of 


netnews”* (Proceedings of the 1994 ACM Conference on Computer- 
Supported Cooperative Work，1994) 一 文 介绍 了 基于 最 近邻 的 首 个 协同 
过 滤 系 统 。Greg Linden、Brent Smith 和 Jeremy York 的 “Amazon.com 
recommendations: Item-to-item collaborative filtering”* (IEEE Internet 
Computing，2003) 一 文 介 绍 了 亚马逊 的 协同 过 滤 系 统 《〈 参 见 第 八 章 网 发 
的 延伸 阅读 部 分 ) 。Mayer-Schonberger 和 Cukier 的 Big Data 以 及 Siegel 的 
RS Analysis〈 之 前 引用 过 ) 引用 了 推荐 系统 对 于 亚 马 进 和 网 飞 销 

业绩 的 贡献 。1967 年 ，Tom Cover 和 Peter Hart 写 了 一 篇 关于 最 近邻 的 
， 文章 一 “Nearest neighbor pattern classification”* (IEEE 
Transactions on Information Theory) 。 


Trevor Hastie、 Rob Tibshirani 和 Jerry Friedman 的 The Elements of 
Statistical Learning* (2nd ed.，Springer，2009) 的 2.5 部 分 讨论 了 维 数 灾 
难 。Ron Kohavi 和 George John 的 “Wrappers for feature subset 
selection”* (Artificial ”Intelligence， 1997) 一 文 对 比 了 属性 选择 方法 。 
David Lowe 的 “Similarity metric learning for a variable-kernel 
classifier”* (Neural Computation， 1995) 就 是 一 个 特征 赋 权 算法 的 例 
i 


Nello Cristianini 和 Bernhard Schokopf 的 “Support vector machines and 
kernel methods: The new generation of learning machines” (AI Magazine, 
2002) 一 文 在 很 大 程度 上 运用 了 非 数 学 的 方法 来 介绍 支持 向 量 机 。 
Bernhard Boser、 Isabel Guyon 和 Vladimir Vapnik 的 “A training algorithm 


for optimal margin classifiers”* (Proceedings of the Fifth Annual Workshop 
on Computational Learning Theory, 1992) 。 Thorsten Joachims 的 “Text 
categorization with support vector machines” (Proceedings of the Tenth 
European Conference on Machine Learning,，1998) 是 第 一 篇 将 支持 问 量 
机 运用 到 文本 分 类 中 的 论文 。Nello Cristianini 和 John Shawe-Taylor 的 An 
Introduction to Support Vector Machine (Cambridge University Press, 


2000) 一 书 中 的 第 五 章 在 文 持 癌 量 机 的 背景 下 简要 介绍 了 约束 优化 。 


Janet Kolodner 的 Case-Based Reasoning* (Morgan Kaufmann, 1993 ) 
是 该 主题 的 教材 。Evangelos Simoudis 的 “Using case-based retrieval for 
customer technical support”** (JEEE FExport 1992) 一 文 揭示 了 它 在 求助 
台中 的 运用 。“Rise of the software machines”(Economist, 2013) 及 其 公 
司 的 主页 上 介绍 了 正 畸 诊疗 软件 的 Eliza。Kevin Ashley 在 Modeling Legal 
Argument* (MIT Press， 1991) 中 探索 了 基于 案例 的 法 律 推 理 。David 
Cope 在 “Recombinant music: Using the computer to explore musical 
style”(IEEE Computer，1991) 一 文中 总 结 了 他 用 于 进行 自行 音乐 创作 
的 方法 。Dedre Gentner 在 “Structure mapping: A theoretical framework for 
analogy”* (Cognitive ”Science， ”1983) 一 文中 提出 了 构造 图 。James 
Somers 的 “The man who would teach machines to think” (Atlantic, 2013 ) 


讨论 了 道格拉斯 起 夫 斯 泰 特 对 于 人 工 智 能 的 看 法 。 


我 的 文章 “Unifying instance—based and rule—based 
inducton”* (Machine Learning, 1996) 介绍 了 RISE 算法 。 


第 八 章 


Alison Gopnik、 Andy Meltzoff 和 Pat Kuhl 的 The Scientist in the 
Crib (Harper， 1999) 一 书 总 结 了 心理 学 家 关于 儿童 如 何 进行 学 习 的 发 
现 。 


1957 年 ，Stuart Lloyd 在 贝尔 实验 室 的 一 篇 技术 报告 “Least squares 
quantizataion in PCM”* 《最 后 以 一 篇 论文 的 形式 出 现在 1992 年 的 IEEF 
Transactions on Information Theory) 中 ，k 均 值 聚 类 算法 首次 被 提出 。 关 
于 最 大 期 望 算法 的 原文 是 Arthur Dempster、Nan Laird 和 Donald Rubin 
的 “Maximum likelihood from incomplete data via the EM 
algorithm”* (Journal of the Royal Statistical Society B, 1977) 。Leonard 
Kaufman 和 Peter Rousseeuw 的 Finding Groups in Data: An Introduction to 
Cluster Analysis* (Wiley，1990) 介绍 了 分 级 聚 类 及 其 他 方法 。 


Kar Pearson 在 1901 年 的 一 篇 名 为 “On lines and planes of closets fit to 
systems of points in space”* (Philosophical Magazine) 的 文章 中 提出 ， 
pricipal-component analysis 是 机 器 学 习 及 统计 中 最 古老 的 技术 。Scott 
Deerwester 等 人 的 文章 “Indexing by latent semantic analysis”* (Journal of 
the American Society for Information Science, 1990) 介绍 了 用 于 给 SAT 作 
文 打分 的 一 种 降 维 方法 。Yehuda Koren、Robert Bell 和 Chris Volinsky 
在 “Matrix factorization techniques for recommender systems”* (JEEE 
Computer， 2009) 中 解释 网 飞 式 协 同 过 小 系统 如 何 运 行 。Tenenbaum、 
Vin de Silva 和 John Langford 的 “A global geometric framework for nonlinear 
dimensionality reduction”* (Science, 2000) 介绍 了 Isomap 算 法 。 


Rich Sutton 和 Andy Barto 的 Reinforcement Learning: An 
Introduction* (MIT Press， 1998) 一 书 是 该 主题 的 标准 教材 。Marcus 
Hutter 的 Universal Artificial Intelligence* (Springer，2005) 尝试 对 加 强 学 
习 进 行 理论 上 的 总 结 。“Some studies in machine learning using the game 
of checkers”* (IBM Journall of Research and Development, 1959) 一 文 介 
绍 了 Arthur Samuel 关 于 学 习 如 何 下 国际 象棋 的 开创 性 研究 ， 这 篇 文章 也 
是 “机 器 学 习 ” 这 个 术语 最 早出 现 的 印刷 品 之 一 。Chris Watkins 对 于 强化 
学 习 问 题 的 构想 也 出 现在 他 的 博士 论文 Learning from Delayed 
Rewards* (Cambridge University,，1989) 中 。Voloydymyr Mnih 等 人 
的 “Human-level control through deep reinforcement learning”* (Nature, 


2015) 一 文 介 绍 了 DeepMind 用 于 视频 游戏 的 强化 学 习 算 法 。 


在 “A cognitive odyssey: From the power law of practice to a general 
learning mechanism and beyond” (Tutorials in Quantitative Methods for 
Psychology，2006) 一 文中 重 述 了 组 块 的 发 展 。A/B 测 试 和 其 他 在 线 实验 
技术 在 Ron Kohavi、Randal Henne 和 Dan Sommerfield 的 “Practical guide to 
controlled experiments on the Web: Listen to your customers not to the 
HiPPO”* (Proceedings of the Thirteenth International Conference on 
Knowledge Discovery and Data Mining，2007) 一 文 得 到 了 解释 。Eric 
Siegel 的 Predictive Analytics (Wiley，2013) 一 书 第 七 章 的 主题 就 是 隆起 
建 模 ， 即 对 A/B 测 试 的 多 维度 概括 。 


Lise Getoor 和 Ben Tasker 编 辑 的 Introduction to Statistical Relational 
Learning* (MIT Press, 2007) 一 书 探索 了 这 个 领域 的 主要 方 
法 。“Mining social networks for viral marketing” (IEEE Intelligent 
Systems, 2005) 是 我 和 Matt Richardson 关 于 模拟 口头 语 的 文章 。 


第 九 章 


Zhi-Hua Zhou 的 Modei Ensembles: Foundations and 
Algorithms* (Chapman and Hall, 2012〉 对 元 学 习 进 行 了 介绍 。 关 于 堆 土 
的 最 早 文章 是 David Wolpert 的 “Stacked generalization”* (Neural 
Networks, 1992) 。Leo ”Breiman 在 “Bagging predicts”* (Machine 
Learning， 1996) 中 介绍 了 装 袋 预测 法 ， 在 “Random 
forests”* (MchineLearing, 2001) 介绍 了 随机 森林 法 。Yoav Freund 和 Rob 
Schapire 的 “Experiment with a new boosting algorithm” (Proceedings of the 


Thirteenth International Conference on Machine Learning, 1996) 一 文 介 绍 


了 助 推 法 。 


Anil Ananthaswamy 的 “I，Algorithm” (New Scientist，2011) 记录 了 
在 人 工 智能 中 将 逻辑 与 概率 结合 起 来 的 方法 。 我 和 Daniel Lowd 一 起 合 
写 的 Markov Logic: An Interface Layer for Artificial Intelligence* (Morgan 
& Claypool， 2009) 一 书 是 对 马尔 可 夫 逻 辑 网 络 的 介绍 。Alchemy 网 站 
http://alchemy.cs.washington.edu 也 包含 教程 、 录 像 、MLN、 数 据 集 、 刊 
物 和 其 他 系统 的 指示 器 等 。Jue Wang 和 Pedro Domingos 的 “Hybrid 
Markov logic works”* (Proceedings of the Twenty-Third AAAT Conference 
on Artificial Intelligence, 2008) 一 文 介绍 了 MLN 在 DARPA 的 PAL 项 目 中 
的 用 途 。Stanley Kok 和 Pedro Domingos 的 “Extracting semantic networks 


from text via relational clustering”* (Procedings of the Nineteenth European 
Conference on Machine Learning，2008) 一 文 介绍 了 我 们 如 何 运用 MLN 
从 网 站 上 获取 语义 网 络 。 


在 Mathias Niepert 和 Pedro Domingos 的 “Learning and inference in 
tractable probabilistic knowledge bases”* (Proceedings of the Thirty-first 
Conference on Uncertainty in Artificial Intelligence, 2015) 一 文 介绍 了 带 
有 类 层次 和 部 件 结构 的 有 效 MLN。 Jeff Dean 等 人 的 “Large-scale 
distributed deep networks”* (Advances in Neural Information Processing 
Systems 25, 2012) 一 文 介绍 了 和 谷歌 的 并 行 梯度 下 降 算 法 。Pedro 
Domingos 和 Geoff Hulten 的 “A general framework for mining massive data 
streams”* (Journal of Computional and Graphical Statistics, 2003) 一 文 总 
结 了 我 们 用 于 掌握 开放 式 数 据 流 的 取样 方法 。David Weinberger 所 
与 “The machine that would predict the future” (Scientific American, 2011) 
的 主题 是 The FuturICT 项 目 。 


“Cancer: The march on malignancy” (Nature supplement, 2014) 一 文 
介绍 了 目前 对 抗 癌症 的 情况 。Chris Edwards 的 “Using patient data for 
personalized cancer treatments” (Communications of the ACM, 2014) 一 文 
介绍 了 有 可 能 会 发 展 为 CaneRx 的 早期 情况 。Markus Covert 的 “Simulating 
a living cell”(Scientific American, 2014) 解释 了 他 的 团队 如 何 构建 整个 


感染 细菌 的 计算 机 模型 。Antonio Regalado 的 “Breakthrough Technologies 
2015: Internet of DNA”(MIT Technology Review, 2015) 总 结 了 全 球 基因 
组 学 与 健康 联盟 的 工作 。Jay Tenenbaum 和 Jeff Shrager 的 “Cancer: A 
Computational Disease that AI Can Cure”(AT Magazine, 2011) 一 文 介绍 
了 常见 的 癌症 。 


第 十 章 


Kevin Poulsen 的 “Love, acturaially”(Wired，2014) 介绍 了 一 个 人 怎 
样 通 过 机 器 学 习 来 在 OkOcupid 约 会 网 站 上 寻找 爱情 。Christian Rudder 的 
Dataclysm (Crown， 2014) 控 据 了 OkCupid 的 数据 ， 用 于 各 式 各 样 的 想 
法 。Gordon Moore 和 Jim Gemmell 的 Total Recall (Dutton, 2009) 一 书 探 
索 了 对 我 们 所 做 的 一 切 进行 数字 化 记录 的 启示 。Patrick Tucker 的 The 
Naked Future (Current，2014) 探索 了 在 我 们 的 世界 中 ， 进 行 预测 时 对 
数据 的 使 用 及 小 用。 在 "Privacy pragmatism” (Foreign Affairs, 2014) 一 
文中 ，Craig Mundie 文 持 在 收集 和 利用 数据 时 使 用 均衡 法 。Erik 
Brynjolfsson 和 Andrew MCAfee 的 The Second Machine Age (Norton, 
2014) 讨论 了 人 工 知 能 的 进步 会 对 未 来 的 工作 及 经 济 造 成 的 影响 。Chris 
Baraniuk 的 “World War R”(New Scientist, 2014) 总 结 了 围绕 能 否 在 战争 
中 使 用 机 器 人 的 辩论 。Stephen Hawking 等 人 的 “Transcending 
complacency on Superintelligent machines” (Huffington Post 2014) 一 文 
提出 当下 正 是 担心 人 工 智能 危机 的 时 候 。Nick Bostrom 的 
Superintelligence (Oxford University Press， 2014) 一 书 提 到 了 一 些 危 
险 ， 并 说 明 应 该 怎样 应 对 这 些 危 险 。 


Richard Hawking 的 A Brief History of Life (Random Penguin, 1982) 
一 书 总 结 了 计算 机 出 现 之 前 的 量子 跳跃 。Ray Kurzweil 的 The Singularity 
Is Near (Penguin， 2005) 可 带领 我 们 进入 “超人 类 ”未 来 。 在 Radical 
Evolution (Broadway Books，2005) 中 ，Joel Garreau 就 人 类 指向 的 进化 


在 Radical Evolution 〈Broadway Books, 2005) 中 如 何 展 现 设 想 了 三 个 不 
同 的 情景 。 在 What Technology Wants (Penguin, 2010) 中 ，Kevin Kelly 
提出 技术 就 是 以 其 他 方式 来 对 进化 进行 延续 。George Dyson 的 Darwin 
Among the Machine (Basic Books, 1997) 一 书 回顾 了 技术 的 发 展 史 ， 并 
设想 技术 将 会 把 我 们 带 往 何 处 。 在 Life at the Speed of Light (Viking， 
2013) 一 书 中 ，Craig Venter 解 释 了 他 的 团队 如 何 合成 活 细胞 。 


